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Conference intemationale sur : 

« Les ressources langagieres : Construction et 

Exploitation » 


ARGUMENTAIRE 


Les ressources linguistiques tnterviennent, d'une fa^on croissante, au coeur 
meme de la conception et du d^veloppement de diffdrents produits 
informatiques, que ce soit en amont (utilisation de donndes linguistiques) 
ou en aval pour la production de nouvelles ressources et le d£veloppement 
de nouveaux outils. 

Les langues naturelles peu informatisees souffrent en general d'un manque 
en termes de ressources, qui constituent un besoin crucial pour l'integration 
de ces langues dans les nouvelles technologies d'information. Pom cette 
raison, tine des preoccupations majeures du traitement automatique des 
langues (TAL) est la disposition de telles ressources. De nos jours, entamer 
un tel champ n^cessite d'abord une preparation basique (codage de 
systeme graphique, claviers de saisie, etc.) de la langue en question avant 
de s'aligner sur les specifications et normes intemationales en la matiere 
pour garantir un maximum de reutilisation des ressources et outils 
developpes et d'interoperabilite avec les autres langues. 

Dans le cas de la langue amazighe, le processus de standardisation et de 
generalisation de l'utilisation du caractere tifinaghe au niveau des 
technologies d'information, a prepare le terrain pour le developpement des 
outils du TAL et pour la gestion des ressources linguistiques, aussi bien 
monolingues que multilingues. E. reste neanmoins d'autres efforts & 
consentir pour favoriser l'usage de Tamazighe et contribuer ^ sa promotion. 
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PREFACE 

La selection d'articles publies dans le present recueil constitue les actes du 
4 feme atelier international sur l'amazighe et les technologies d'information et 
de communication (TIC) qui s'est tenu a 1'IRCAM du 24 au 25 fevrier 2011. 

L'objectif de ce 4 feme atelier est de dormer une vue sur les efforts des 
differents chercheurs nationaux et intemationaux travaillant en traitement 
automatique des langues naturelles en particulier l'amazighe et de 
renforcer la culture de la mutualisation et le partage des ressources 
langagieres. 

Les travaux reunis dans ce recueil traduisent & la fois le caractere 
multidisciplinaire des recherches, la richesse des applications sous-jacentes 
et la vitalite des innovations issues du traitement automatique des langues. 

Lors de cette quatrieme edition, sur les 31 soumissions revues, 24 articles 
ont ete selectionnes par un comite de lecture important. En general deux 
relecteurs ont ete mis a contribution pour chaque article. 

Nos remerciements chaleureux vont tout d'abord aux auteurs pour leurs 
contributions scientifiques. Nous remercions egalements les membres du 
comite de lecture, pour leurs rapports devaluation precis et constructifs et 
le temps qu'ils y ont consacre. 

Nos vifs remerciements vont 4galement & toute l'6quipe du Comit4 
d'organisation pour leur mobilisation permanente, leur travail, et leur 
enthousiasme communicatif pour faire du 4 4mfi atelier international sur 
l' amazig he et les TICs une grande r£ussite. Qu'ils sachent que nous avons 
ete nombreux a avoir ete touches par leurs attentions et leurs actions. 

Nous esperons que de nombreux chercheurs et experts, interesses par 
l'amazighe et voulants explorer ce domaine, trouverons cet ouvrage utile. 
Les etudiants chercheurs pourront y trouver aussi une aide precieuse quant 
aux questions sur les approches et applications du TAL. 
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Si l'accks aux ordinateurs est considtrt comme le principal indicateur de la fracture 
numtrique en Afrique, il faut reconn aitre que la disponibilitd des ressources dans 
les langues africaines constitue un handicap dont les consequences sont 
incalculables pour le developpement des Technologies de l'Information et de la 
Co mmu nication (TIC) dans cette pariie du monde. Aussi, la production, la 
diffusion et la vulgarisation de ressources locales adapttes dans ces langues nous 
paraissent-elles Stre indiqutes pour une implantation durable des TIC sur le 
continent. Or, la plupart des langues de l'espace francophone d'Afrique de l'Ouest 
sont peu dotees (langues-pi) [Berment 2004] : les ressources electroniques 
disponibles sont rares, mal distributes, voire inexistantes. Seules sont accessibles 
les fonctions d'tdition et d'impression rendant l'exploitation de ces langues difficile 
au moment oh il est question de les introduire dans le systkme tducatif , de crter 
des normes d'ecriture standardises et stabilisees et surtout de developper leur 
usage k l'ecrit dans l'administration et la vie quotidienne. 

Aussi, afin de contribuer k combler ce retard, nous nous sommes engages -avec les 
collegues du Sud et du Nord- a amtliorer l'equipement de quelques langues 
africaines a travers, entre autres, l'informatisation de dictionnaires editoriaux 
portant sur des langues africaines. A cet effet, nous prtsenterons le projet DiLAF 
(Dictionnaires Langues Africaines Fran^ais) qui vise k convertir des dictionnaires 
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tditoriaux bilingues en un format XML 1 permettant leur ptrennisation et leur 
partage [Streiter et al. 2006]. Ce projet international rassemble des partenaires du 
Burkina Faso (Centre National de la Recherche Scientifique et Technologique), de 
France (Laboratoire d'Informatique de Grenoble et Laboratoire d’informatique de 
Nantes-Atlantique) , du Mali (Centre National de Ressources de l'Education Non 
Formelle) et du Niger (Institut National de Documentation de Recherche et 
d'Animation Ptdagogiques, Ministtre de l'Education Nationale, et Universitt 
Abdou Moumouni de Niamey). 

En nous fondant sur un travail de base dejji effectue par des lexicographes nous 
avons constitut des tquipes pluridisciplinaires constitutes de linguistes, 
d'informaticiens et de pedagogues. Cinq dictionnaires comportant, chacun, 
plusieurs milliers d'entrtes, devraient ttre convertis et inttgrts & une plate-forme 
Jibiki de gestion de ressources lexicales [Mangeot 2001]. Les dictionnaires seront 
done disponibles sur Internet d'ici la fin de l'annee 2011 sous licence Creative 
Commons. 

— dictionnaire bambara-fran^ais, Charles Bailleul, edition 1996, 

— dictionnaire haoussa-franfais destint a l'enseignement du cycle de base 1, 2008, 
Souttba, 

— dictionnaire kanouri-fran^ais destint pour le cycle de base 1, 2004, Souttba, 

— dictionnaire soqay zarma-fran^ais destint pour le cycle de base 1, 2007, 
Souttba, 

— dictionnaire tamajaq-franfais destint h l'enseignement du cycle de base 1, 2007, 
Souttba. 

II s'agit de dictio nnair es d'usage qui visent surtout & vulgariser les formes tcrites 
de l'usage quotidien des langues africaines dans la pure tradition lexicographique 
[Matort 1973], [Eluerd 2000]. 

Se demarquant des dtmarches normatives et dirigistes des dictionnaires normatifs 
[Mortureux 1997], les prtsents dictio nnair es descriptifs restent ouverts aux 
contributions et leur mise en ligne devra, nous l'esptrons, dtvelopper un sentiment 
de fierte chez les usagers des difftrentes langues. De meme, ils participeront au 
developpement d'un environnement lettre propice k l'alphabttisation dont le faible 
taux compromet les acquis des progr&s rtalists dans les autres secteurs. 

Nous presenterons la structure de ces dictionnaires ainsi que quelques entrees, puis 


1 Extended Markup Language 
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contributions et leur mise en ligne devra, nous l'esp&ons, ddvelopper un sentiment 
de fiertd chez les usagers des difterentes langues. De meme, ils participeront au 
ddveloppement d'un environnement lettrg propice a l'alphab&isation dont le faible 
taux compromet les acquis des progr&s r£alis£s dans les autres secteurs. 

Nous presenterons la structure de ces dictionnaires ainsi que quelques entrees, puis 
les resultats de l’atelier de demarrage qui s'est deroule du 6 au 17 decembre 2010 a 
Niamey (Niger) : 

— mdthodologie de conversion & Unicode, 

— formation aux expressions rgguli&res, 

— methodologie de conversion & XML. 

Nous prgsentons l'origine des dictionnaires, quelques entries ainsi que leur 
structure puis, nous detaillons les premiers resultats de l'atelier tout en nous 
projetant vers les futurs travaux. 

1. Cinq dictionnaires bilingues langue africaine-frangais 

Quatre des cinq dictionnaires sin lesquels nous travaillons ont ete produits par le 
projet Soutdba (programme de soutien a l'dducation de base) avec le financement 
de la cooperation allemande et l'appui de l'Union Europ6enne. Ces dictionnaires, 
destines & l'education de base, sont de structure simple car ils ont ete congus pour 
des enfants de classe primaire scolarises en dcole bilingue (l'enseignement y est 
donne en une langue nationale et en fran§ais). La plupart des termes de 
lexicologie, telles les etiquettes lexicales ou les categories grammaticales, les 
signalisations de synonymies, d'antonymies, de genres, de variations dialectales, 
etc., y sont notes dans la langue dont il est question dans le dictionnaire, 
contribuant ains i a forger et a diffuser un meta-langage dans la langue locale, une 
terminologie specialisee. Les entrees sont enoncees en ordre alphabetique, meme 
dans le cas du tamajaq (bien qu'il soit habituel de presenter les entrees de cette 
langue en fonction des racines) car les voyelles sont explicitement ecrites (ce mode 
de classement a ete privilegie car il est bien connu des enfants). 


2 DED : Deutscher Entwicklungsdienst 
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1.1 - Dictionnaire haoussa-frangais 

II comprend 7823 entires classdes selon l'ordre lexicographique suivant : a b 6 c 
deffyggwgyhijk kw ky R Rw Rylmnoprsshttsuwyy’z [Arrete 212- 
99]. 

Elies sont structures avec des schemas differents selon la categorie grammaticale. 
Toutes les entries sont d'ordre orthographique ; suivent la prononciation (les tons 
sont marques par les signes diacritiques poses sur les voyelles) et la categorie 
grammaticale. Sur le plan s6mantique, il existe une definition en langue haoussa, 
un exemple d'emploi (repere par l'usage de l'italique), puis 1'equivalent en fran£ais. 
L'entr6e d'un nom precise en sus le genre, le f6minin s’il existe, le ou les pluriels 
(selon les genres) et les eventuelles variantes dialectales. Pour les verbes, il est 
parfois n6cessaire de preciser les degr^s pour calculer les derives morphologiques. 
Les variantes morpho- phonologiques des derivations feminine et plurielle des 
adjectifs sont enoncees. 

Exemple : 

jaki [jaakfi] s - babbar dabbar gida mai kamar doki, wadda ba ta kai 
tsawon doki ba 

amma ta fl shi dogayen kuimuwa. Ya am wa jaki kaya m ya tafi 
kasuwa. Jin.: n. Sg.: jaka. 


16 - 
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La forme orthographique de l'entree est suivie Vindication de prononciation ciblees 
sur la notation des tons : le ton haut est note par un accent aigu, le ton bas par un 
accent grave, le ton montant par un caron (signe suggerant la succession d'un 
accent grave et d'un accent aigu) et le ton descendant par un accent circonflexe 
(signe suggerant la succession d'un aigu et d'un accent grave. La catdgorie 
grammaticale de l'entree est indiqu6e en italique. Une definition, un exemple 
d'usage puis le sens en francais sont ensuite 6nonc6s. D'autres informations 
peuvent apparaitre comme des variantes. 

Exemple : 

abdfwa [abdarwa] cu. Kdska tdngdr7i, kalu ngdwua dawulan tada 
cakkidd. Kdryende 

kannua nangaro, abdrwa cakkiwawo. [Fa.: ananas] 

Le mot "abdrwa" se prononce [abdDwa]. Sa categorie grammaticale est 
"cu." (nom). 

Sa definition est ecrite en caracteres gras : "Kdska tdngdrmi, kalu 
ngdwua dawulan tada 

cakkidd." 

Un exemple d'usage est signaie en caracteres italique : "Kdryende kannu a nangar o, 
abdrmwa 

cakkiwawo." 

L'equivalent en frangais, precede de "Fa.:" et encadre de crochets, termine l'entree. 

13 - Dictionnaire soijay zarma-fran^ais 

II comprend 6916 entrees classees selon l'ordre lexicographique suivant : 

aabcdeefghiljklm 

nqji o 6 p rs tuu wy z [Arrete 215-99]. 

Chaque entree presente une forme orthographique suivie d’une transcription 
phonetique dans laquelle les tons sont notes selon les conventions deja exposees 
pour le kanouri (partie 1.2). La categorie grammaticale precise explicitement, pour 
les verbes, la transitivite ou l'intransitivite. Pour certaines entrees, des antonymes, 
synonymes ou renvois sont indiques. Une glose en framjais, une definition et un 
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exemple terminent l'entree. 

Exemple : 

ji agas [ji agas] mteeb. • brusquement ( detaler ) • sanniize no kag ga 
cabe kag boro na zuray 

sambu nda gaabi saha-din • Za zankey di hansu-kaaro no i te ji agas 

Le mot "jl agas" se prononce [ji agas]. Sa categorie grammaticale est 
"mteeb" (adverbe). L'£quivalent en fran^ais est signaie en caract&res 
italiques. 

Sa definition est : "sanniize no kag ga cabe kag boro na zuray sambu nda 
gaabi saha-din" 

Un exemple d*usage est 6nonc6 en caractdres italiques : "Za zankey di 
hansu-kaaro no i te 

Ji agas" 


1.4 - Dictionnaire tamajaq-fran^ais 

Le dictionnaire tamaj aq-fian^ais comprend 5205 entrees du parler tSwSllSmmSt 
class6es selon l'ordre lexicographique suivant :aSa3bcddeefggbiljjY 
kljmngodqrsSSttuuwxyzZ [ArrSt6 214-99] 3 . 

La forme orthographique de l'entree est suivie de la cat6gorie grammaticale de 
l'entree et d*une glose en fran^ais indiqudes en italique. Pour les noms figurent 
souvent des indications morphologiques concemant l'6tat d’annexion ; le pluriel et 
le genre sont souvent explicitement indiqu£s. Une definition, un exemple d*usage 
sont ensuite enonc£s. D'autres informations peuvent apparaitre comme des 
variantes, des synonymes, etc.. Le tamajaq n'ttant pas une langue tonale, la 
phonetique n'apparait pas. 


Les signes f j' et f g f sont utilises uxdquement pour transcrire certains parlers comme celui 
de VAysr, par consequent ils 

n'apparaissent pas dans ce dictionnaire. 
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Exemple : 

abeY la sn. mulet ♦ Ag-anv er ad tabagawt. Ibev lan war tan-taha 

tamalav a .anammelu.: 

fakr-ejad. temnst.: yy. iget.: ibaY lan. 

Le mot "abeY la" est un "sn.", abbreviation de "isan" (nom) qui signifie 
mulet en fran^ais. 

Sa definition "Ag-anY er ad tabagawt." et un exemple d'usage "IbeY lan 
war tan-taha tamalaY " sont ecrits en caracteres gras. 

Un synonyme (anammelu) est signale : "fakr-ejad". 

Le genre (tamust) est "yy.", abreviation de "yey" (masculin). 

Le pluriel de ce mot (iget ) est "ibaY lan". 

1.5 - Dictionnaire 
bambara-franfais 

Le dictionnaire bambara-fran$ais du Pdre Charles Bailleul (edition 1996) 
comprend plus de 10 000 entrees selon l'ordre lexicographique suivant : a b c d e 
s fghijklmnji goo prstuwyz. 

Ce dictionnaire est d'abord destine aux locuteurs fran^ais desireux de se 
perfectionner en bambara mais il constitue 6galement une ressource pour les 
bambaraphones. Selon les dires de l'auteur lui- meme, il « se veut etre un outil de 
travail au service de l'alphabetisation, l'enseignement et la culture bambara ». A ce 
jour, il peut dtre considere comme le dictionnaire le plus foumi et le plus complet 
sur cette langue. Aussi il est consults par les sp6cialistes des autres varietes de cette 
langue que sont le dioula (Burkina Faso, Cote d'Ivoire) et le manlinke (Guinee, 
Gambie, Sierra Leone, Liberia, etc.). 

Bien que l'orthographe du bambara ne note pas les tons, et ce par economie de 
signes, les tons sont marquees dans toutes les entrees et tous les exemples d'usage : 
l'accent grave sur une voyelle breve marque un ton bas ponctuel ("bino go ke " 

~ "oncle patemel") ; l’accent grave sur une voyelle repetee l'affecte sur toute sa 
longueur ("de We mu" - "parole" - se prononce de We Wmu); l'accent 
grave suivi d*un accent aigu marque une voyelle longue relevee sur sa deuxieme 
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partie (ex : "ji aa" - "nid)" ; le caron marque un ton bas module ascendant (ex : 
"ben” - "accord"). 

La prononciation phongtique n'est indiquge que lorsque l'orthographe officielle 
s'dcarte de la prononciation effective. Dans de tels cas, elle est indiquge entre 
crochets. Par exemple L'analyse de « da.lan [dlan] (se coucher.suff instrument) n. 
lit » montre que ce derive ("da" et le suffixe "-lan", respectivement "se coucher" et 
"instrument servant a"” n'est jamais prononce completement c'est-a- dire en deux 
syllabes, il est phon6tiquement notg par [dlan]. 

Les entrees, surtout complexes, sont accompagnees de leur origine et de leur 
structure, car il s'agit d'informations necessaires pour une bonne traduction. Ainsi, 
pour les dgrivgs et composes, l'analyse des glgments est indiqu6e entre parentheses 
et la frontigre sgmantique sugggrge par un point, comme dans l'entrge suivante : « 

Jl 6 mo go ji E .mo go ( devant.nersonnel dirieeant. chef. [...] » Cette 

presentation de l'entree indique que, morphologiquement, "ji 8 mo go " se 

compose de "ji 6 " et de "mo go " (ce qui est indique par le point) et que, 
semantiquement, dans l'ordre, il signifie "devant" et "personne" (ce qui est 
indique par les parentheses et le point), le sens de tout le compose se ramenant a 
dirigeant, c'est-g-dire une personne placge devant, & la tete de... (traduction 
indiquge par le soulignement). 

On peut ains i multiplier les exemples : 

« kalanso kalan.so finstruction.maisonl classe d'ecole » : mot compose de "kalan" 
et "so", 

respectivement "instruction" et "maison", signifie "classe d'gcole". 

« mo go dun mo go .dun (personne .manger) cannihale. anthropophage » : mot 

compose de "mo go " et "dun", respectivement "personne" et "manger", signifie 
"cannibale". 

« juguya jugu.ya (mauvais.suff abst)_mechancete » : mot derive ("jugu" et "-ya", 
respectivement 

"mauvais” et suffixe d'abstraction), signifie "mgchancetg". 

« walanba walan.ba (tablette.suff aueml tableau noir » : mot derive ("walan" et 
ba", 

respectivement "tablette" et suffixe augmentatif), signifie "tableau noir". 

Il est important de signaler que la derivation et la composition etant des procedes 
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tres productifs en bambara, les cas retenus pour figurer dans le dictionnaire ont ete 
choisis en fonction de leur frequence d’emploi et de leur variation de sens par 
rapport a leur formation. 

L'origine des emprunts est indiqu6e entre accolades : {fr} pour le fran$ais, et {ar} 
pour l'arabe. 

Exemples : « kaso kaso {fr: cachot} n. Prison » ; « ala ala {ar: allah=Dieu} » 

Enfin, ce dictionnaire accorde quelque place aux ndologismes proposes par les 
services d'alphab6tisation. II s'agit notamment de « ceux qui sont les plus utilises 
ou semblent promis & un bel avenir ». Us sont signals par l'indication 
(neologisme). 

Exemples : « kumaden kuma.den (parole.elementl mot (neologisme) » ; « 
ko bila ko .bila ( derriere.placef i postposition (neologisme) » 


2. Plate-forme jibikl 

Jibiki (Mangeot et al., 2003; Mangeot et al., 2006) est une plate-forme g6n6rique 
en ligne pour manipuler des ressources lexicales avec gestion d*utilisateurs et 
groupes, consultation de ressources heterogenes et edition generique d'articles de 
dictionnaires. C'est un site Web communautaire initialement developpe pour le 
projet Papillon (http://www.papillon-dictionary.org). La plate-forme est 
programmee entierement en Java, fondee sur l'environnement "Enhydra". Toutes 
les donnees sont stockees au format XML dans une base de donnees (Postgres). Ce 
site Web propose principalement deux services : une interface unifiee permettant 
d'accdder simultandment k de nombreuses ressources h£t6rog£nes (monolingues, 
dictionnaires bilingues. bases multilingues, etc.) et une interface d'ddition 
spdcifique pour contribuer directement aux dictionnaires disponibles sur la plate- 
forme. 

L'editeur (Mangeot et al., 2004) est fonde sur un modele d'interface HTML 
instancie avec l'article a editer. Le modele peut etre genere automatiquement 
depuis une description de la structure de l'entree a l'aide d*un schema XML. II peut 
etre modifie ensuite pour ameliorer le rendu a l'ecran. La seule information 
necessaire a l'edition d*un article de dictionnaire est done le schema XML 
reprgsentant la structure de cette entire. Par cons6quent, il est possible d'6diter 
n'importe quel type de dictionnaire s'il est encod6 en XML. 
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Plusieurs projets de construction de ressources lgxicales ont utilisd ou utilisent 
toujours cette plate- forme avec succes. C’est le cas par exemple du projet GDEF 
(Chalvin et al. } 2006) de dictioimaire bilingue estomen-fr&npais (http://estfra.ee), 
du projel LexALP de terminologie multilingue sur la convention alpine 
(http://iexalp.eurac.alu/) ou plus rficemment du projet MotAMot sur les langues 
d'Asie du sud-est Le code de cette plate-forme est disponible gratuitement en 
source ouverte en tdi&hargsment depuis la forge du laboiaioire LIG 
(http^/jibiki .ligforgeJmag.fr). 


La plate-forme sera adaptee specifiquement au projet DiLAF car, en sus des 
dictionnaires, des informations specifiquss au projet doivent etre accessible aux 
visiteurs : 

— presentation du projet et des partenaires 

— methodologje gdnirale de conversion des dictionnaires editoriaux au format 
LMF 


— fiches techniques concemant difRrents outils ou tSches a resliser : tutoriel sur 
les expressions r£gulidres, m6thodologie de conversion d*un document utilisant des 
polices non conformes au standard Unicode vers im document conforme au 
standard Unicode, liste des logiciels utilises (il s’agit uniquement de logiciels 
libres), m£thodologie de suivi du projet. 


— presentation de chaque dictionnaire : genese, auteurs iniliaux, principes ayant 
r6gi la construction du dictionnaire, langue, alphabet, structuration des articles, etc. 

— dictionnaire au format LMF. 


H est 6galement envisage de localiser la plate-forme pour chacune des langues du 
projet en traduisant les libeMs de I'inter&ce. 



pagas [jiagas] mteeb. bmsquement (detaler) 

sanniize no leer] ga eabe kar] boro na zuray sambu nda gaabi saha*din 

Za zankey dr hansu-kaaro no / te pagas 


Figure 1 : presentation du verbe zprma "p agas" sur la plate-forme Jibiki 
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3. Travaux du premier atelier du projet DiLAF 

Les participants a cet atelier sont majoritairement des linguistes ou des 
pedagogues, chacun travaillant sur un dictionnaire traitant de sa langue matemelle 
(qui est 6galement la langue sur laquelle portent ses activity professionnelles). Les 
formateurs sont des enseignants-chercheurs en informatique specialises en 
traitement automatique des langues (TAL). L'objectif de ce premier atelier est de 
deiivrer une formation A. la conversion des dictionnaires tels qu'ils existent dans 
leur format editorial, vers une structure XML refietant au mieux la structure 
initiale des entrees tout en conservant l'ensemble des informations qui y sont 
exprimees. Plusieurs etapes ont ete suivies pour atteindre cet objectif et garder la 
trace des differents traitements, chacune de ces etapes etant assorde d'un document 
remis aux participants. 

Formation aux expressions r£guli£res 

Les participants ont ete formes a l*usage des expressions regulieres pendant trois 
jours et ont pu exercer directement leurs nouvelles connaissances par l*usage du 
logiciel Open Office Writer. 

Conversion a Unicode 

Bien que les alphabets des langues sur lesquels nous avons travaille soient 
majoritairement d'origine latine, de nouveaux caracteres necessaires pour noter des 
sons specifiques a certaines langues 4 a l'aide d'un seul caractere 5 ont ete adoptes 
par les linguistes lors d'une s6rie de reunions 6 . La premiere, en septembre 1978, 
organisee par 1UNESCO au CELTHO (Centre d'etudes linguistiques et historiques 
par tradition orale) & Niamey cree l'« Alphabet afiicain de reference » fonde sur les 
conventions de 1'IPA (International Phonetic Association) et de 1TAI (International 
African Institute). Ainsi, chacun des alphabets que nous avons precedcmment 


4 L'absence d'un seul signe marquant certains sons avait aiwen6 les linguistes africains & 
exprimer ces sons & l'aide de combinaisons de lettres. Par exemple, en zarma le digraphe 
/ny/ note le son n palatal. C'est aussi ce qui est realise en fran 9 ais avec le son [/ ] 
retranscrit /ch /. 

5 En Zarma, la lettre ji remplace le digraphe /ny/. Ainsi, le mot autrefois ecrit « nya » 
(mere) devient « ji a ». 

6 Niamey (novembre 1978), Abidjan (ddcembre 1980), Bamako (juin 1981), Nouakchott 
(novembre 1981), Ouagadougou (juin 1982). 
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presentes comprend au moms un de ces "nouveaux" caracteres : 6 cf 9 e y R 
Ji go y. Des caracteres composes d’un caractere latin et d'un signe diacritique 
ont egalement ete crees :aei6uaaeT6udjstZQJsf. 

Comme nombre de ces caracteres etaient absents des dispositifs de saisie et des 
standards alors en usage [Enguehard 2009], des touches de frappe de machines & 
6crire, des glyphes de polices d’ordinateurs ont 6te modifiees. Bien que la plupart 
de ces caracteres soient depuis plusieurs ann£es presents dans le standard Unicode 
(issu des travaux du comite ISO 10646 [Haralambous 2004]), les dictionnaires 
dont nous disposons ont ete rediges en utilisant les anciennes polices arrangees. 

Une methodologie a ete definie afin de reperer et remplacer les caracteres 
inadequats par les caracteres definis dans le standard Unicode. Suivre cette 
methodologie implique que l'ensemble des caracteres reperes et leurs caracteres de 
remplacement soient notes dans un fichier afin de pouvoir reiterer facilement cette 
operation si cela s'averait necessaire. 

Ce travail est termine et a permis de dresser la liste des caracteres encore absents 
dUnicode ou dont la manipulation peut poser des probiemes avec certains 
logiciels (voir partie 4). 

Methodologie de conversion a XML 

Les fichiers electroniques des dictio nnair es respectant le standard Unicode ont ete 
convertis en fichier Open Office. Ces fichiers sont en realite des fichiers XML 
compresses, les balises exprimant principalement des informations relatives & la 
mise en forme (usage de caracteres gras ou italiques, de couleur, etc.). II s’agit 
done de passer d'un format XML dedie & l'expression de la forme vers un format 
XML porteur d'informations sur la structure du dictionnaire : vedette, phonetique, 
exemple, synonymes, etc. 

Cette transformation a ete partiellement ou totalement realisee a l'aide 
d'expressions regulieres. 

4. Bilan quant a Unicode 

Certains caracteres des alphabets sur lesquels nous avons travaille necessitent 
d'apparaitre dans le standard Unicode ou d'etre mieux pris en compte par les 
logiciels existants. 
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Ordre lexicographique des digraphes 

Les digraphes peuvent etre facilement compos6s k l'aide de deux caracteres mais 
leur usage modifie l'ordre du tri lexicographique qui conditionne la presentation 
des entr6es du dictionnaire. Ainsi, en haoussa et en kanouri, le digraphe 'sh' est 
situe apres la lettre 's'. Done le verbe "sha" (boire) est situ6 aptes le mot "suya" 
(frite) dans le dictionnaire haoussa, et le verbe"suwuttu" (denouer) precede le nom 
"shadda" (basin) en kanouri. 

Ces subtilites peuvent etre difficilement traitees au niveau logiciel et necessiterait 
que les digraphes apparaissent en tant que signe dans le repertoire Unicode. 
Certains, utilises par d'autres langues, y figurent deja, parfois sous leur differentes 
casses : T>Z' (U+01F1), 'Dz' (U+01F2), 'dz' (U+01F3) sont utilises en slovaque ; 
W (U+01CA), 'Nj' (U+01CB), 'nj' (U+01CC) en croate et pour transcrire la lettre 
« It » de l'alphabet cyrillique en serbe ; etc. 

II serait necessaire de completer le standard Unicode avec les digraphes des 
alphabets kanouri et haoussa sous lews differentes casses. 


El 




kw 


Rw 

sh 

ts 

El 

Gw 

ESI 

Bl 

Kw 

Bl 

Kw 

Sh 

Ts 

FY 

GW 

GY 

KY 

KW 

KY 

KW 

SH 

TS 


Table 1 : digraphes du haoussa et du kanouri absents de Unicode 

Caracteres avec signes diacritiques 

Certains des caracteres potant des signes diacritiques figurent dans une Unicode 
comme un unique signe, d'autres ne peuvent etre obtenus que par composition. 
Ainsi, les voyelles avec tilde 'a', 'i', 'o' et 'u' figwent dans Unicode sous leurs 
formes minuscule et majuscule 7 tandis que le 'e' avec tilde est absent et doit etre 
compost A l'aide du caract&re 'e' ou 'E' suivi de l'accent tilde (U+303), ce qui peut 
provoquer des rendus difKrents des autres lettres avec tilde lors de l'affichage ou 
de l'impression (tilde situe a une hautew differente par exemple). 

La lettre j avec caron existe dans Unicode en tant que signe J (U+1F0), mais sa 

_ 

forme majuscule doit etre composee J avec la lettre J et le signe caron (U+30C). 
Les caracteres e, E et J 3 devraient £tre ajoutes au standard Unicode. 


7 'a* (U+00E3) 7 ’(U+0129), 'o' (U+00F5), *u' (U+0169), 'A' (U+00C3), 'I' (U+0128), 'O' 
(U+00D5) et tT (U+0168). 
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Editeurs de texte : fonctions changement de casse, affichage et rechercher 

Les 6diteurs de texte disposent gdndralement de la fonction changement de casse, 
mais ne la r6alisent pas toujours de manidre correcte selon les caracteres. Ainsi, 
nous avons constate durant nos travaux que le logiciel OpenOffice Writer (version 
3.2.1) 6choue dans la transformation de ¥ en ' R' du bas de casse vers le haut de 
casse ou pour l'inverse (le caractere reste inchang6) tandis que Notepad++ (version 
5.8.6) 6choue dans la transformation de J en P du bas de casse vers le haut de 
casse ou pour l’inverse (le caractere reste inchange). 

Plusieurs caracteres avec diacritiques peuvent 6tre directement saisis comme un 
seul signe (quand celui-ci existe dans Unicode) ou 6tre explicitement composes. 
Selon les logiciels, les differentes versions d*un meme caractere avec diacritiques 
peuvent etre traites de maniere egale ou differente. Par exemple, le caractere 'a', a 
avec tilde, peut etre saisi directement comme tel (U+00E3) ou ecrit comme une 
combinaison (U+0061 U+0303). L'affichage a l'ecran avec OpenOffice Writer 
(version 3.2.1) est equivalent, mais la fonction rechercher appliquee a l'un de ces 
caracteres ne permet pas de trouver l’autre ; le logiciel Notepad-H- (version 5.8.6) 
ne permet pas d'afficher correctement les versions combindes des caracteres k 1 
'6cran. La fonction rechercher ne permet pas non plus de retrouver toutes les 
occurrences d*un meme caractere. 

Caracteres tifinagh 

Nous completons cet etat des lieux des caracteres dans Unicode par un expose de 
la situation des caracteres tifinagh au Niger, alphabet traditionnel des touaregs 
tamajaqophones. 

Le tamajaq fait partie des langues berb6res r6partis autour du Sahara et dans le 
nord de l'Afrique (groupe chamito-semitique) : 

— au Maroc : tarifit au nord, tamazight au centre (Moyen Atlas), tashelhiyt au sud 
et au sud- ouest (Haut et Anti-Atlas) 

— en Algerie : taqbaylit au nord (Grande et Petite Kabylie), zenatya au sud (Mzab 
et Ourgla) chaoui’a a l’est (Aures), tahaggart des touaregs sahariens du Hoggar. 

— au Mali: tamajaq de l'Adrar 

— au Niger : tamajaq au nord (Air), au centre (vall6e de l'Azawagh) et k l'ouest (le 
long du fleuve Niger). 
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D existe egalement de petites communautes berberes en Mauritanie, en Tunisie ou 
encore en Libye [Aghali-Zakara 1996], 

Suite & une proposition marocco-franco-canadienne [Andries 2004] des caracteres 
t ifinagh ont gtg introduits au sein du repertoire Unicode [Unicode 2005], mais il 
apparait qu'ils ne sont completement adaptes a la population touaregue nigerienne 
utilisatrice d’alphabets tifinagh de maniere traditionnelle. Au Niger, coexistent 
principalement deux alphabets traditionnels correspondent aux zones 
g£ographiques de l'Air et de l'Azawagh. Ces alphabets transcrivent 21 consonnes 
et la voyelle 'a 1 et different en ce qui conceme trois signes [Modi 2007], De plus, 
ils se distinguent de l’alphabet officiel a base lati ni see (voir 1.4) par l'absence de 
notation des consonnes emphatiques. 


Valeur phonetique 

Afr 

Azawagh 

Y 

u 

Q 

Q 

q 

X 

X 

q 

0 


Table 2 : caracteres divergents entre l'Air et l'Azawagh 


De decembre 2001 a mars 2002, les caracteres ti fi nag h ont ete renoves au Niger 

O ’ __ _ _ ‘ " 

par un comity de linguistes sp^cialistes du tamajaq [Elghamis 2003]. Cet alphabet 
fait la synth&se des caracteres de l'Air et de l'Azawagh 8 9 , de l'alphabet k base latine 
en usage pour la transcription (voir 1.4). Les linguistes ont effectue des choix la ou 
il y avait des divergences entre les tifinaghs de l'Afr et de l'Azawagh et fait des 


8 Ce comite etait pilote : 

- a Paris par Mohamed Aghali-Zakara ; 

- a Agadez par Ghoubeid Aojaly, assiste de Emoud Salekh, Ahmed Amessalamine, 
Ahmed Moussa Nounou, 

Mohamed Adendo, Alhour Ag Analoug, Abda Annour, Aghali Mohamed Zodi, 
Moussa Ag Elekou ; 

- k Niamey par Ramada Elghamis, avec Aghali Zennou, Ibrahim Illiasso, et Adam 
Amarzalc 9 Par consequent, les signes f J f et f g' en sont absents. 
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propositions pour la notation des voyelles ; les consonnes "v" et "p", utiles pour 
noter les emprunts, ont ete ajoutees ; les signes notant les consonnes emphatiques 
'd', I', 'S', t', T ont siroplement 6t6 construits en ajoutant un point sous le signe 
tifinagh notant respectivement 'd', T, ’s', 't 1 , 'z'. II apparait que l'apprentissage 
traditionnel de cette Venture au sein des villages facilite l'acquisition du syst&ne 
officiel lots de l'entrge & l'6cole. Par ailleurs, il existe des publications (journaux, 
livres) utilisant cet alphabet. 

Mais certains caracteres de cet alphabet sont absents de l'alphahet tifina gh du 
standard Unicode 

[Unicode 2005], ou bien ont des interpretations diff6rentes. 


Caracteres 

latins 

Tifinagh 

API 

Unicode 

a 

a 

U+2D30 

Tifinagh letter ya 

a 

a 

U+2D30 U+0306 

Tifinagh letter ya combining 
breve 

b 

b 

2D40 

Tuareg letter yab 

c 

5 


— 

d 

d 

U+2D39 

Tifinagh letter yadd 

d 

■ 

D 

U+2D39 U+323 

Tifinagh letter yadd combining 
dot below 

e 

e 


— 

B 

e 


— 

f 

f 

U+2D3C 

Tifinagh letter yaf 

g 

9 

U+2D36 

Tifinagh letter yaj 

Y 

u 

U+2D58 

Tifinagh letter yagh 

h 

h 

U+2D42 

Tifinagh letter yah 

■ 

1 

■ 

1 

U+2D62 

Tifinagh letter yay 

a 

J 

■ 

J 

U+2D4C 

Tifinagh letter tuareg yazh 

k 

k 

U+2D3E 

Tifinagh letter tuareg yak 

1 

1 

U+2D4D 

Tifinagh letter yal 

1 

■ 

L 

U+2D4D U+323 

Tifinagh letter yal combining 
dot below 

m 

m 

U+2D4E 

Tifinagh letter yam 

0 

& 

U+2D50 

Tifinagh letter tuareg yagn 

n 

n 

U+2D4F 

Tifinagh letter yan 

0 

0 

— 

— 

p 

p 



q 

q 

U+2D57 

Tifinagh letter tuareg yagh 
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r 

r 

U+2D54 

Tifinagh letter tuareg yar 

s 

s 

U+2D59 

Tifinagh letter yas 

s 

■ 

s 

U+2D59 U+323 

Tifinagh letter yas combining 
dot below 

S 

C 

U+2D5B 

Tifinagh letter yash 

t 

t 

U+2D5C 

Tifinagh letter yat 

t 

■ 

T 

U+2D5C U+323 

Tifinagh letter yat combining 
dot below 

u 

u 


— 

V 

V 

— 

— 

w 

w 

— 


X 

X 

U+2D46 

Tifinagh letter tuareg yakh 

y 

y 

U+2D49 

Tifinagh letter yi 

Z 

Z 

U+2D63 

Tifinagh letter yaz 

Z 

■ 

z 

U+2D63 U+323 

Tifinagh letter yaz combining 
dot below 


Table 3 : caracteres tifinagh APT et Unicode 


Ce recensement fait done apparaitre l'absence de huit caracteres dans le standard 
Unicode. 

4. Future travaux 

Les futurs travatix du projet DiLAF porteront dans tin premier temps sur la 
correction des erreurs relev^es dans les dictionnaires, et l'ajout d'entr£es 
manquantes relatives anx mots designes par les liens de synonymie, d'antonymie, 
etc. 

La seconde etape consiste en un enrichissement des dictionnaires afin d'etre en 
mesure de calculer toutes les formes fl6chies des noms et adjectifs et toutes les 
conjugaisons des verbes. 

Dans la mesure du possible une troisieme etape de traduction des exemples et 
definitions vers une ou plusieurs autres langues sera definie afin de constituer des 
corpus plurilingues. 

Conclusion 

Le projet DiLAF etablit une methodologie de conversion de dictionnaires 
editoriaux vers des formats XML. II s'agit de creer et rendre disponibles de 
nouvelles ressources aux chercheurs en TAL, d*une part et de d’equiper les langues 
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africaines de ressources numeriques nouvelles et indispensable a leur promotion, 
d'autre part. 

La publication de ces ressources sur Internet permettra aux locuteurs de ces 
langues de disposer, souvent pour la premidre fois, d'informations 
linguistiquement fiables quant A l’orthographe, au lexique ou vocabulaire et A 
l'usage des mots de leur langue. 

La tenue de ce premier atelier a permis de rassembler une dizaine de linguistes de 
trois pays ainsi que deux informaticiens. Les travaux mends ensemble ont fait 
emerger la richesse de la collaboration entre disciplines complementaires et entre 
pays voisins. Les transferts de connaissance ont ete riches, tant en ce qui conceme 
les outils techniques que sur des sujets de fond en linguistique. Les formations 
communes, les realisations de chacun et les discussions ont fait dmerger une 
synergie d'action entre les pays concemds. 
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Un dictionnaire en tant que corpus : 

Traitements informatiques du dictionnaire 
raisonne berbere - fran^ais de Miloud Taifi 


Miloud Taifi 1 , Patrice Pognan' 


’Universite Sidi Mohamed ben Abdellah de Fes 
2 INALCO, Lalic (U. Paris Sorbonne & INALCO) 


Resume 

L’entreprise que nous pr^sentons id possdde un caractde particulier par rapport 
aux thdnatiques du congrgs. En effet, & l’heure actuelle, la demarche devenue 
habituelle est la construction de vastes corpora avec les outils afferents qui 
permettent 1’ exploitation des donnees et leur mise en yaleur pour des etudes 
scientifiques ulterieures (linguistique, traitement automatique des langues, 
litterature, sociologie, ...) et pour des applications telles que l’elaboration de 
dictionnaires, de grammaires, de manuels d’apprentissage de la langue. . . 

Nous avons eu un cheminement inverse, car dans notre cas, le dictio nnair e 6tait 
present en premier, en cours de realisation. Notre demarche consiste done & utiliser 
une application pour produire des ressources qui permettront de nouvelles 
applications. A partir de travaux sur la structure de bases de donnees pour 
consigner dans le meme appareil des langues indo-europeennes, chamito- 
semitiques et agglutinantes (langues turques et langues finno-ougriennes), nous 
transformons le dictionnaire berbere - fian^ais en base de donnees avec de 
nouvelles applications en dictionnairique, mais aussi dans le domaine de la langue 
(lexicologie, morphologic, aide a la construction de grammaires et de methodes 
d’apprentissage). 
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1. Presentation du dictionnaire 

Ce dictionnaire est une version corrigee, augmentee et remaniee de l’ouvrage 
intitule « Dictionnaire Tamazight-Fran$ais (parlers du Maroc central) » public en 
1992. Le but vis6 6tant de recons tituer le systdme de la langue berb£re, cette 
nouvelle version est suffisamment diffdrente de la premiere, dans plusieurs de ses 
aspects, pour en proposer un autre titre qui est desormais : « Dictionnaire raisonne 
berb^re - fran$ais. Parlers du Maroc ». Cel a veut dire que la masse lexicale 
consignee dans cet ouvrage n’est plus, comme dans le precedent, continue dans le 
dialecte tamazight qui re group e les parlers pratiques dans le Maroc central, mais 
comporte aussi, comme il est explique ci-apres, des formes de mot et/ou des 
significations nouvelles attestees dans d’autres zones geolinguistiques 
berberophones du Maroc. 

Id. Correction 

La correction a consiste a redresser les fautes, les erreurs et les maladresses aussi 
bien dans la partie berbdre du dictionnaire que dans sa partie fran^aise. La saisie de 
l’ouvrage a permis de revoir avec plus de detail et d’acuite toutes les scories que 
comporte l’ancienne version. Les supports informatiques et leur manipulation ont 
ete d’un grand secours. II est cependant evident, malgre toute 1’ attention portee a la 
reecriture de 1’ ouvrage, que le lecteur peut trouver encore quelques coquilles ou 
quelques oublis. 

12. Augmentation 

La masse lexicale consignee dans cet ouvrage est augmentee de plus de 60% 
(presque 8200 racines contre environ 5000 dans le dictionnaire precedent). Elle 
regroupe les parlers pratiques dans le Maroc central, mais comporte aussi des 
formes de mot et/ou des significations nouvelles attest6es dans d’autres zones 
geolinguistiques berberophones du Maroc. 

Deux sources essentielles nous ont permis de proceder a [’augmentation de la 
masse lexicale repertoriee dans cet ouvrage. 

- depuis 1992, la lexicographie berbere marocaine a connu un essor 
remarquable de par la realisation de divers travaux sur le lexique, travaux 
academiques en majorite ; ce qui nous a permis de renouveler et d’augmenter le 
dictionnaire precedent (Oussikoum 1995, Azdoud 1997, Boumalk et Bounfour 
2001, Serhoual 2002, Rahho 2005). Nous avons ainsi, en puisant, avec prudence et 
circonspection, dans ces travaux, enrichi le dictionnaire d’autres mots, d’autres 
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expressions et d’autres acceptions, en elargissant 1’ investigation a d’autres parlers 
du Maroc, appartenant aux dialectes dits tarifit ou tachelhit, en nous fondant 
essentiellement sur les criteres de production et/ou de reception et en considerant la 
langue berbere du Maroc dans sa globalite, esperant, de par cette orientation, 
participer k 1’ effort collectif de la propagation du berbere auprds de tous ses 
locuteurs. On remarquera ainsi que nous avons renoncd & indiquer 1’appartenance 
des formes k tel ou k tel parler ou dialecte, mettant en evidence, de cette fa$on, le 
systdme de la langue en elle-meme et non pas les diff6rentes et diverses 
performances de locuteurs. L’ option de transcription adoptee dans ce dictionnaire, 
comme il est explique ci-apr^s, renforce davantage une telle orientation ; 

- la seconde source conceme les corpus de litterature orale dans toutes sa 
diversity : chants, poesie, proverbes, devinette, contes ... textes authentiques, les 
formes litteraires sont des garanties d’attestation. Nous avons exploite ainsi des 
documents publics et plusieurs autres corpus collects par des 6tudiants dans le 
cadre de leurs travaux acaddmiques en these, (Amrani 2007, Kich 2007, Jarmouni 
2009). Une source inestimable que la literature, car elle conserve des mots, des 
expressions et des acceptions que l’usage quotidien du berbere n’actualise jamais 
ou du moins rarement ! L’ exploitation de la litterature nous a permis aussi de 
diversifier les exemples du dictionnaire en y inserant d’autres chants, proverbes et 
devinettes. 

13. Remaniement 

Nous avons adopte de fa?on plus systematique une ecriture phonologique et 
grammaticale. La premiere option consiste k reconstituer, quand cela est possible, 
les elements constitutifs de la racine qui subissent, lots des realisations 
phon6tiques, des changements et des alterations dans les formes de mot ou i la 
ironti&re des constituants au niveau des sequences syntagmatiques. Les 
changements phon^tiques ne sont pas nombreux, ils portent surtout sur des 
realisations circonscrites dans l’aire linguistique du berbere. Quelques exemples 
suffiront a montrer de quoi il s’agit: 


[1] le passage de k k § : akal > aSal « terre, sol » ; 

1 2] le passage de g a z : igenna > izenna « ciel » ; 

[3] le passage de 1 k z : alim > azim ou bien k r : alim > arim. 
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Ces changements n’alterent en rien la structure des racines. Par contre la 
vocalisation des semi-consonnes a un effet corrosif. En effet « y » est souvent, dans 
certaines formes de mot, realise en la voyelle « i ». Q en est ainsi par exemple du 
verbe asy « prendre », dont la racine constitutive est bilitere SY, qui voit sa 
deuxidme radicale actualisde en « i » dans certaines formes de conjugaison : 

[4] usix au lieu de useyx « j 9 ai pris » ; 

[5] tusim au lieu de tuseym « vous avez pris » 

Ce qui rdduit la forme verbale & une racine monolitdre. H en est de mSme pour la 
semi-consonne «w», rdalisde en la voyelle «u» dans quelques contextes 
phoniques. Ainsi le verbe arw « enfanter, accoucher » est trilitdre, mais dans 
certaines de ses formes conjuguees « w » est realise « u »: 

[6] turud « tu as accouche » au lieu de turewd 

ce qui rdduit Id aussi la racine bilitere d une monolitere. 

La seconde option, qui constitue sans doute une innovation, consiste a rendre 
transparents et visibles dans l’ecriture tous les elements de la langue, lexicaux ou 
grammaticaux, constitutifs des enonces. Une telle denture permet ainsi 
1’ identification des objets linguistiques tels qu’ils se prdsentent dans le systeme de 
la langue, inddpendamment des performances aussi varides des locuteurs 
berbdrophones. 

14. Reconstitution du systeme de la langue 

Le principe fundamental qui preside d la mdthodologie appliqude dans ce 
dictionnaire est la reconstitution du systeme de la langue berbdre, telle qu’elle se 
presente dans le domaine marocain. On est en effet tres loin de l’epoque ou l’on 
affirmait que le berbere est constitue d’une « poussiere » de parlers, chacun confine 
dans une zone geographique limitee, reduite parfois a un mouchoir de poche. 
Plusieurs facteurs sociaux ont depuis contribue a l’ouverture des parlers et a leurs 
contacts avec les autres : le mouvement des populations au Maroc, une 
sedentarisation acceleree, les mass medias 0a radio notamment), le tissu associatif 
defendant la cause berbdre et plus rdcemment 1’ insertion du berbdre dans le 
syst£me dducatif ont teduit sensiblement l’dtanchdit6 entre les parlers et les 
dialectes. Ajoutons aussi que les recherches acaddmiques ont permis une 
connaissance plus approfondie de plusieurs parlers en revelant leurs 
particularismes. La reconstitution du systeme impose de ce fait la methodologie 
appliquee dans la confection de ce dictionnaire. 
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Trois options en sont les plus saillantes : 

- notation des formes de base selon leur phonie initiale, en proc6dant 
cependant k des renvois, quand cela est nScessaire, k des realisations rgelles 
particuli&res ; 


- dissimilation des complexes phonetiques au niveau de toutes les 
sequences syntagmatiques dans lesquelles ils apparaissent ; 


- traitement des vari6t6s lexicales dans le cadre de la synonymie ou 
parasynonymie en consid6rant que toutes les formes de mot rapproch£es de par 
leurs affinit6s de sens, appartiennent au lexique de la langue berb&re, 
ind6pendamment de leur actualisation dans tel ou tel parler. 

C’est ce qui justifie le qualificatif « raisonne » dont est affiible le titre de cet 
ouvrage. 


15. Comparaisons 


1 5.1 . Comparaison avec le kabyle 

II nous a paru utile de maintenir la comparaison des donnees de ce dictionnaire 
avec le kabyle en nous referant exclusivement a Dallet (1982). La comparaison 
pourrait servir aux 6tudes dialectologiques. Elle nous montre que les diffdrents 
dialectes se partagent un grand nombre de racines. Mais les mots form6s d’une 
m£me racine ne recouvrent pas toujours les mSmes sens. Le rapprochement n’a 6t£ 
not6 que dans des cas oil les parlers berb&res du Maroc et le kabyle pr6sentent au 
moins un sens commun, un invariant de sens pour une meme racine. 

152. Comparaison avec l ’arabe 

Le berbere a admis beaucoup de vocables etrangers. On y trouve des mots latins, 
turcs, franqais, espagnols..., mai s ce sont surtout les emprunts faits a 1’ arabe qui 
constituent la plus grande partie des apports etrangers. On sait par ailleurs que 
l’arabe et le berbere appartiennent a la meme famille de langue s : le chamito- 
semitique. Les deux systemes contiennent done necessairement un fond lexical 
commun. Dans l’etat actuel, le berbere et l’arabe dialectal marocain sont en contact 
6troit. II y a done in6vitablement emprunt de part et d’ autre, et il n’est pas toujours 
ais£ de statuer sur la provenance de certaines racines. 

II est evident cependant que des sous-systemes lexicaux relatifs a des domaines 
particuliers : religieux, sociopolitique ..., sont empruntes a 1’ arabe. Mais l’examen 
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de 1’ ensemble lexical montre que les racines communes aux deux systemes ne sont 
pas toutes exclusivement arabes. Les rapprochements notes dans ce dictionnaire 
n’indiquent done pas l‘origine des racines berberes mais qu’il y a, en synchronie, 
simple similitude entre le berbere et l’arabe. 

1 _5_?. Reference a d’autres longues 

Nous indiquons aussi, de facon sporadique et quand cela nous semble plausible, 
l’origine des emprunts faits k d’autres langues, notamment au fransais et k 
l’espagnol, au latin et au turc. 

1.6. Traduction en frangais 

La traduction d’une langue en une autre n’est pas une operation facile, et ce travail 
n’echappe pas aux problemes auxquels est confrontee toute etude de lexicographie 
differentielle. La tache a ete d’autant plus malaisee que le berbere et le fran^ais 
sont deux langues qui appartiennent a des families distinctes et represented des 
cultures foncierement differentes. 

Les difficult^ de la traduction reinvent en effet de deux sortes de causes : 

- des causes d’ordre linguistique : les mots ne sont pas equivalents et ne 
recouvrent pas toujours les memes acceptions ; 

- des causes d’ordre culturel : les langues expriment diffdremment les 
r£alit£s environn antes. 

Les exemples retenus servent a illustrer chaque sens et montrent aussi co mme nt le 
berbere organise les elements linguistiques au niveau de la chaine. La traduction 
litterale est donnee dans des cas ou il y a ambiguite semantique ou pour mettre en 
relief tm ph£nom£ne de syntaxe. Les expressions, locutions, proverbes et pieces 
po^tiques sont d’abord, pour la plupart, traduits littdralement pour montrer la 
difference entre leur sens litt6ral et leur signification globale. 

1.7. Classification par racines et organisation des articles sous une mime 
racine 

Les racines d£gag£es sont class£es par l’ordre alphabetique du tranqais adapts aux 
phonemes pardculiers du berbere. Beaucoup de racines sont homonymes, e’est-a- 
dire composees des memes consonnes. L’homonymie conceme surtout les 
monoliteres, les biliteres et plus rarement les triliteres. L’ordre de classification des 
racines homonymes est le suivant : ont ete notees d’abord celles qui foumissent les 
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outils gramraaticaux : pronoms, particules, conjonctions..., ensuite les racines 
verbo-nominales et, en dernier lieu, les racines qui sont exclusivement nominales. 

Chaque racine ddgag6e est indiqu6e en lettres capitales. Elle constitue 1’ entree- 
vedette d’un ou de plusieurs articles. En face de la racine, & droite sur la meme 
ligne, sont indiqu6s soit l’origine, quand elle est bien etablie, soit les 
rapprochements avec d’autres langues, notamment, ce qui est pltis frequent, avec 
l’arabe et/ou le kabyle. 

Chaque article est introduit au debut de la ligne par le signe ♦ ; sont notees 
immediatement apres, a l’aide de la barre oblique / les variantes phonetiques ou 
morphologiques. 

Le signe ► introduit les sens. Les exemples vicnncnt ensuite, precedes du signe •. 
La traduction est separee de l’exemple par une simple virgule. La traduction 
litterale ou une note explicative sont toujours mises entre parentheses. 


2. Les traitements informatiques du dictionnaire 

Les traitements informatises realises (dans un environnement de programmation en 
Python) sur le dictionnaire permettent d’obtenir un certain nombre dedications 
chiffr6es. Mis « & plat », ce dictionnaire represente pres de 7200 racines (ce qui 
constitue une augmentation d’environ 60% du nombre de racines par rapport au 
dictionnaire de 1992), plus de 40000 enregistrements informatiques, pres de 18000 
articles dont 5000 concement des verbes simples ou derives et un total de 2700000 
caracteres. C’est aussi un ensemble de 13500 exemples et locutions berberes 
authentiques. 

2J. du dictionnaire au corpus 

Nous avons transforme les 29 fichiers Word du dictionnaire en fichiers textes bruts 
codes en Unicode UTF-8 que nous avons fusionnes en un corpus relativement 
important de 2 700 000 caracteres. A partir de ce corpus, une serie de programmes 
doit pouvoir produire une plateforme adequate a la construction d’une base de 
donnees comprenant le mgme contenu que le dictionnaire d’origine, augmente de 
valeurs grammaticales calcuiees automatiquement. 

22. du corpus it la base de donnies 

Le traitement est divise en deux modules. Le premier a pour but de reconnaitre les 
structures existantes du dictionnaire et le second d’enrichir ces structures de 
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connaissances de nature morphologique a partir des indications minimales qui sont 
donnees dans le dictionnaire. 

II.2.1. Le premier module est divise en 5 programmes (scripts en Python) qui 
s’enchainent. Les structures du dictionnaire sont reconnues « a Penvers » en 
partant de la structure la plus profonde. Nous partons du texte en Unicode UTF-8 
qui a l’apparence suivante: 

SF ar. T kb. 

♦ sfu 

sfi-sfa, tesfu, ur-sfi ► etre pur, propre, net ; etre clair (v. aussi : zdig, zdg) • isfa ucban-a, ce vetement 
est propre. • isfa yigenna, le ciel est clair. • sfant-as lefeayl (ses actions sont propres), il est honnete, 
droit. • tesfa nniyt-nes, il est de bonne foi. • isfa-as wul, son coeur est pur, il a un bon coeur ; il est 
franc, honnete. • isfa wawal (litt. la parole est claire), I'affaire est tiree au clair. 

♦ S — sesfu 

sesfi-sesfa, tsesfu, ur-sesfi ► rendre propre, net, clair. • ssabun ay da itsesfun itbann, c'est le savon 
qui rend les vetements propres. 

Le premier programme repere les exemples grace au signe typographique qui les 
introduit et les decale vers la droite pour amorcer une structuration du texte: 


SF ar. ( kb. 

♦ sfu 

sfi-sfa, tesfu, ur-sfi 

► etre pur, propre, net ; etre clair 
■ zdig, zdg 

* isfa utban-a, ce vetement est propre 

* isfa yigenna, le ciel est clair 

* sfant-as lefeayl (ses actions sont propres), il est honnete, droit 

* tesfa nniyt-nes, il est de bonne foi 

* isfa-as wul, son coeur est pur, il a un bon coeur ; il est franc, honnete 

* isfa wawal (litt. la parole est claire), I'affaire est tiree au clair 

♦ S — sesfu 

sesfi-sesfa, tsesfu, ur-sesfi 

► rendre propre, net, clair 

* ssabun ay da itsesfun iEbann, c'est le savon qui rend les vetements 


propres 


Le second programme traite le niveau des significations et en particulier les 
problemes d’absence de signification provoqu6s par des mentions telles que « 
meme sens que prec. » en recherchant et en dupliquant le sens precedent. Il 
effectue une autre tache importante: il extrait et ordonne les Elements de 
synonymie, signales par un carr6: 
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SF ar. T kb. 

♦ sfu 

sfi-sfa, tesfu, ur-sfi 

► etre pur, propre, net ; etre clair 
■ zdig, zdg 

• isfa usban-a, ce vetement est propre 

• isfa yigenna, le del est clair 

• sfant-as lefsayl (ses actions sont propres), il est honnete, droit 

• tesfa nniyt-nes, il est de bonne foi 

• isfa-as wul, son cceur est pur, il a un bon cceur ; il est franc, honnete 

• isfa wawal (litt. la parole est claire), I'affaire est tiree au clair 

♦ S — sesfu 

sesfi-sesfa, tsesfu, ur-sesfi 

► rendre propre, net, clair 

• ssabun ay da itsesfun isbann, c'est le savon qui rend les vetements 


propres 


Le troisieme programme isole les differentes racines en les separant les unes des 
autres par une ligne vide et met en evidence les articles du dictionnaire, c’est-a-dire 
les differents mots relevant de la racine en question: 


SF ar., kb. 

♦ sfu 

sfl-sfa, tesfu, ur-sfl 

*■ etre pur, propre, net ; etre clair 
■ zdig, zdg 

• isfa usban-a, ce vetement est propre 

• isfa yigenna, le ciel est clair 

• sfant-as lefcayl (ses actions sont propres), il est honnete, droit 

• tesfa nniyt-nes, il est de bonne foi 

• isfa-as wul, son cceur est pur, il a un bon coeur ; il est franc, honnete 

• isfa wawal (litt. la parole est claire), I'affaire est tiree au clair 

♦ S — sesfu 

sesfi-sesfa, tsesfu, ur-sesfi 

► rendre propre, net, clair 

• ssabun ay da itsesfun iebann, c'est le savon qui rend les vetements 


propres 
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Le quatrieme programme traite le niveau du mot ou il regroupe toutes les 
informations morphologiques et met entre crochets les remarques a la fin de la 
ligne, p. ex. « [meme racine que la precedente ?] »: 


SF ar,, kb. 

i J 

♦ sfu 

sfi-sfa, tesfu, ur-sfi * etre pur, propre, net ; etre clair (v, aussi : zdig, zdg) 

• isfa ucban-a, ce vetement est propre 

• isfa yigenna, le ciel est clair 

• sfant-as leftayl (ses actions sont propres), il est honnete, droit 

• tesfa nniyt-nes, il est de bonne foi 

• isfa-as wul, son coeur est pur, il a un bon coeur ; il est franc, honnete 

• isfa wawal (litt. la parole est claire), I'affaire est tire© au clair 

♦ S — sesfu 

sesfi-sesfa, tsesfu, ur-sesfi ► rendre propre, net, clair. 

• ssabun ay da itsesfun icbann, c'est le savon qui rend les vetements 


prop res 


Lorsque 1’ entree lexicale est de nature nominate, le premier mot, celui qui constitue 
l’entree, peut porter une indication sur l’etat d’ annexion: « ♦ usbih (wu), ». 

Le cinquieme programme ne traite que les indications d’ occurrence d’une racine 
dans d’autres langues, par exemple en kabyle et/ou en arabe: 


SF ar., kb. 

♦ sfu, sfi-sfa, tesfu, ur-sfi 

► etre pur, propre, net ; etre clair 
■ zdig, zdg 

• isfa ucban-a, ce vetement est propre 

• isfa yigenna, le ciel est clair 

• sfant-as leftayl (ses actions sont propres), il est honnete, droit 

• tesfa nniyt-nes, il est de bonne foi 

• isfa-as wul, son coeur est pur, il a un bon coeur ; il est franc, honnete 

• isfa wawal (litt. la parole est claire), I'affaire est tiree au clair 

♦ S — sesfu, sesfi-sesfa, tsesfu, ur-sesfi 

► rendre propre, net, clair 

• ssabun ay da itsesfun iebann, c’est le savon qui rend les vetements 


propres 


La sortie de ce programme constitue Fentr6e du second module. 

2.2.2. Le second module est determinant pour pouvoir creer une base de donnees 
correspondant au dictionnaire. 11 est compos6 de trois scripts qui calculent des 
informations supplementaires. 
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Le premier programme participe a la connaissance quantitative du dictionnaire 
raisonne berbere du Maroc - franpais. II indique la presence de 7183 racines au 
sein du dictionnaire. Mais il a une fonction beaucoup plus importante. En effet, les 
racines berberes presentent un taux d’homographie eleve. Pour assurer 
l’enchassement correct de tables dans une base de domtees, il convient de les Her 
dans un rapport « un k plusieurs ». Pour ce faire, il est n6cessaire de presenter une 
forme unique de racines pouvant etre liees a un nombre quelconque de mots en 
decoulant. C’est pourquoi nous avons du nunteroter les racines pour assurer leur 
unicite. Dans les bases de domtees correspondantes, la racine nue est pr6sent£e k 
l’utilisateur, mais la racine numerotee assure l’integrite et le bon fonctionnement de 
la base: 


SF 


pro pres 


SF1 ar., kb. 

♦ sfu, sfl-sfa, tesfu, ur-sfl 

► etre pur, propre, net ; etre clair 
■ zdig, zdg 

• isfa ueban-a, ce vetement est propre 

• isfa yigenna, le del est clair 

• sfant-as lefeayl (ses actions sont propres), il est honnete, droit 

• tesfa nniyt-nes, il est de bonne foi 

• isfa-as wul, son coeur est pur, il a un bon coeur ; il est franc, honnete 

• isfa wawal (litt. la parole est claire), I'affaire est tiree au clair 

♦ S — sesfu, sesfi-sesfa, tsesfu, ur-sesfi 

K rendre propre, net, clair 

• ssabun ay da itsesfun isbann, c'est le savon qui rend les vetements 


Le deuxieme programme est le programme cle de toute l’entreprise. Sans une 
analyse exacte des categories lexicales, le projet de construction automatique de la 
base de donn£es correspondante serait irr£alisable. Son but est double. 11 doit 
pouvoir assurer la construction, k partir de la BD, de deux types de dictionnaires 
resultants, l’un class6 par les racines, l’autre class6 par les mots. 11 doit pouvoir 
aussi enrichir toutes les informations morphologiques. 

Le classement fondamental i introduire est la perspective des grammaires chamito- 
semitiques qui classent le materiau lexical en deux classes de derivation: verbo- 
nominale (racine dormant des verbes) et nominate (sans verbe dans la derivation). 

2.2.2.a. Calcul des derivations et de l ’echelle de classement 


Le programme calcule une echelle de valeurs de classement des mots sous 
la racine: 
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- les verbes simples resolvent un grammateme compost des valeuis: 
derivation verbo-nominale (VN), verbe (V) et verbe simple (echelle de valeurs 
mise i: 1.1). 

- les verbes composes re^oivent le grammateme: VN V 1.2" 

- les nominaux issus de verbes: "VN SUBST 1.3. " 

- et les formes nominales (substantifs et adjectifs) prennent la marque de la 
derivation nominale (N) avec les valeurs (SUBST ou ADJ) et (2.): 

"N SUBST 2". 

Tous les verbes sont accompagn6s de leurs quatre formes principales, p. 
ex.: 

verbe «faire» : "sker sker teskar ur-skir". 

C’est cette echelle de classement des mots sous la racine qui permet par la 
suite de produire un dictionnaire par racines et/ou un dictionnaire par mots avec 
reference aux racines. 


2.2.2.a. Calcul des valeurs morphologiques 

Le programme determine les categories lexicales - verbes simples (1.1.), 
verbes derives (1.2.) et nominaux (substantifs et adjectifs) issus d’un verbe (1.3.) 
ou non (2.). II calcule toutes les formes d’annexion sur la base des formes libres. 

Pour pouvoir organiser au mieux ces calculs, les nSsultats sont consigns 
dans un vecteur k 24 positions represente ci-dessous : 


0 

racine numerotee - losange 
entree n°: SBH24sbihl 

mm mm 

12 

4 & e forme verbale - preterit negatif 
/ accompli negatif 

1 

racine originelle 

13 

valeur du verbe derive: M, S, Sm, 
Tu,... 

2 

derivation: verbo-nominale ou 

nominale 

14 

genre 

3 

numerotation de l’entree au sein 
d’une racine: « ♦ 1 » 

15 

masculin singulier, etat libre 

4 

entr6e lexicale (mot) 

16 

masculin singulier, etat annexe 

5 

racine numerotee 

17 

masculin pluriel, etat libre 

6 

niveau du mot sous la racine: 1.1. , 
..., 2. 

18 

masculin pluriel, etat annexe 
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7 

derivation en symboles: VN ou N 

19 

feminin singulier, etat libre 

8 

categorie lexicale: V, SUBST ou 
ADJ... 

20 

feminin singulier, etat annexe 

9 

r m forme verbale - aoriste 

21 

feminin pluriel, etat libre 

10 

2 h £ forme verbale - preterit / 
accompli 

22 

fominin pluriel, 6tat annexe 

11 

3 cbk f orme verbale - aoriste intensif 
/ inaccompli 

23 

commentaires du niveau 

morpbologique entre [] ou 0 


La zone gris6e marque des champs qui ne sont pas imprimis: ils servent a la 
construction des bases de donnees afferentes au dictionnaire. La zone couleur 
saumon est afferente aux verbes, celle en bleu clair conceme les substantifs et les 
adjectifs. Les zones blanches sont communes a tous les enregistrements. 

Nous donnons ci-dessous l’etat de l’extrait que nous avons suivi a travers cet 
article apres classification et expression totale des valeurs morphologiques. Cet 
extrait ne possedant que des verbes, nous ajouterons ici un autre exemple 
presentant d’autres categories lexicales. 


SF 

ur-sfi 


tsesfu 


SF1 ar, ( kb, 

♦ 1 sfu SF1 1,1, VN V sfu sfi-sfa tesfu 

► etre pur, propre, net ; etre clair 
■ zdig, zdg 

• isfa ucban-a, c© vetement est propre 

• isfa yigenna, I© ciel ©st clair 

• sfant-as lefcayl (ses actions sont pro pres), il ©st honnete, droit 

• tesfa nniyt-nes, il ©st d© bonne foi 

• isfa-as wul, son cceur ©st pur, il a un bon cceur ; il ©st franc, honnete 

• isfa wawal (litt. la parol© ©st clair©), I'affaire est tire© au clair 

♦ 2 sesfu SF1 1 . 2 . VN V sesfu sesfi-sesfa 

ur-sesfi S 

► rendre propre, net, clair 

• ssabun ay da itsesfun icbann, c'est le savon qui rend les vetements 


pro pres 
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Nous donnons ci-dessous un extrait comprenant un verbe et un adjectif: 


SBH SBH2 

♦ 1 sbih SBH2 1.1. VN V sbih 

■ i n- + ■■ 

ur-sbih 

► etre beau, joli ; etre agreable, charmant 

■ fulki, flk 

■ guda, gd 

■ izill, zl 

• ur tesbih illi-s, sa fille n'est pas belle 

♦ 2 usbih SBH2 1.3. VN ADJ usbih 

wusbihn tusbiht tusbiht tusbihin tusbihin 

► beau, joli ; agreable, charmant 


sbih tesbih 


wusbih usbihn 


Le troisiOme et dernier programme a pour but de traiter les exemples et de produire 
l’exemple berbOre et sa traduction fran$aise accompagnOs Oventuellement d’une 
traduction litterale. II est en pleine reconstruction, afin d’obtenir le maximum de 
solutions informatiques nous evitant les interventions manuelles sur la base de 
donates induite, celles-ci 6 tant toujours tres longues. 

Le probleme vient du fait que 1’exemple berbere est s^par 6 de la traduction par une 
virgule qui est un symbole de ponctuation hautement ambigu (il suffit de se 
reporter a 1 ’ extrait que nous avons donne tout au long de rarticle pour s’en 
persuader). Nous sommes done en train de faire une 6 tude sur la ponctuation au 
sein des exemples, d’une part et avons prepare une segmentation des exemples 
analysds au niveau des graphemes, d’ autre part. 


Cette analyse est basee sur la reconnaissance des signes particuliers du 
berbere: „cszdghrstze“etde ceux du francais: „ ' a ae e e e I i 6 ce u u 9 
Elle est compl 6 t 6 e par la recherche de propositions, conjonctions, particules,... 
telles que „d“, „n“, „s“, . . . en berbere. 


Nous prOsentons ci-dessous les rdsultats de cette demiere analyse: 


• ur telli ssabt aseggwas-a is ur iwwit unzar b 

cette annee f 

il n'y a pas de bonne recolte parce qu’il n'a pas plu suffisamment, f 

• ur telli ssabt aseggwas-a is ur iwwit unzar cette annee, il n'y a pas de bonne 

recolte parce qu'il n'a pas plu suffisamment. 
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Ces resultats seront combines avec eeux obtenus par 1* etude de la ponctuation: 


seg ssbah depuis le matin 

ssbah zikk le matin de bonne heure 

ur tesbih illi-s sa fille n'est pas belle 

isebben taqebbut-nes il a lave au savon sa djellaba 

isebben, meskin ! il est tout pale, livide, le pauvre ! 

Iqalb n ssabun morceau de savon 


33. du corpus structure aux applications 

En premier lieu, k partir de la plateforme obtenue (corpus structure), il est possible 
de construire la base de donn£es que Ton veut: individuelle (Access, SQLite,. . .) ou 
sur serveur par utilisation de XML ou d’un SGBD (MySql, PostgreSql,. , .). 

Une autre application imm ediate a ete la construction de deux lexiques annexes au 
dictionnaire. Il s’agit d’un lexique allant du mot berbere vers la racine berbere: 


izig: ZX1 

zawr: ZWR2 

izikr: ZKR3 

zawr: ZWR3 

izim: ZM2 

zber: ZBR1 

izimmer: ZMR4 

zber: ZBR2 

izimr: ZMR4 

zdeb: ZDB1 

izinfer: ZNFR2 

zdeb: ZDB2 

izl: ZL1 

zebben: ZBN1 

izli: ZL8 

zebber: 2BR3 

izm: ZM2 

zedder: 2DR1 

izrezzi: ZRZ1 

zeffef: ZF3 

izri: ZR11 

zeffen: 2FN1 


zewwa: 2W1 

zzel: ZL2 

zewweq: 2WQ1 

zzeibana: ZLBN1 

zeyyef: ZYF1 

zzelf: ZLF1 

zeyyer: 2YR1 

zzeltita: 

zeezee: Z£1 

zzenzar: ZNZR1 

zesleq: ZCLQ1 

zzent: ZN4 

zestet: Z£T 1 

zzerda: ZRD2 

zfel: ZFL1 

zzerda: 2RD2 

zgem: 2GM1 

zzernan: 2RN1 

zbaz: ZH2l 

zzert: ZR3 

zhed: ZHD1 

zzert: 2R12 
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et d’un autre partant d’uue signification franpaise vers une ou plusieurs racines 
berbdres. Ce dernier lexique est important parce qu*il repr6sente d&ji un embryon 
de dictionnaire franpais - berb6re et parce qu’il permet une utilisation du 
dictionnaire a partir du franpais. Nous sommes en train de terminer sa mise en 
forme: 


abreuver (du betail a un point d'eau); GB4 

abreuvoir: SRZ2, SRZ3 

abri: DRG1, DRY3, NTL1, SFL2, SNFY1 

- a betail: NWL2 

- pour se proteger; 2Y1 

- sous roche: FRIO 
se mettre a I’-: DRY3 

tenir a P~ des regards: HZB1 
abricot: M§8 
abricotier: MS8 
abrite: SDRY1 

abriter (s'-): DRY3, NTL1, SDRY1, SFL2 


accable: LF3, NBR1 

- de malheurs: HDS1 

- de soucis: GF1 

- par les fortes chaleurs de Pete: GLF3 
accablement: DSQ1 ( §HM1 

accabler: D£Q1, DR5, NBR1, NG2, QHR1, 
SHM1 

~ de problemes: SF3 
accalmie: NF22 
acceder (aux desirs): N£M1 
accelerer: DMR1, MR2, Z3 
arnentiier NHM1 


D’autres applications sont rendues possibles par la plateforme ou par la base de 
donn£es correspondante: 

- le projet essentiel est la preparation du materiau n6cessaire & la 
construction d’un dictio nnair e franc ais ~ berb^re du Maroc central en renversant la 
masse lcxicale et les informations qui y sont liees. 

- l’obtention d’un ensemble d’ environ 13500 exemples et locutions, 
denomme «exemplier Taifi » pour lequel nous preparons des outils de 
consultation : 

• iferred g isekwla alliy qqurn, il a neglige les arbres (fruitiers), et ils ont seche (ils sont devenus secs). 

• ituferred g umudin alliy irnmut, le malade a tenement manque de soins qu’il en est mort. 

• la itferfid xef teflewt g tlllas, il cherche la porle a t§tons dans le noir, 

• ar itferfid illi-s n cemmi-s ddaw n yiherbel, il caressail discretement sa cousine sous la couverture. 

• ifreg s uzeggwar i yiserwan, il a construit un enclos pour agneaux avec du Jujubier sauvage. 

• ifreg i waman, il a mis une digue pour devier le cours d'eau. 

• ifreg-as cemmi-s alliy yusy ixf-nes, son oncle paternel I'a pris sous sa tutelle jusqu'a sa majorite. 

• ad ax ifreg rebbi seg wallen, que Dieu nous protege du mauvais coil (des yeux). 

• freg i wussan-nek (protege tes jours), preserve ton ame du chatiment (conseil donne au 
calomniateur). 
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- un ensemble d’environ 5000 verbes qui pourra servir de base a un 
conjugueur automatique: 

- plusieurs dictiomiaires et lexiques: 

dietionnaire classe par mots avec indication de la racine, 
dictionnaire inverse (a tergo), 

lexique terminologique avec classement th6matique (plantes, 
animaux, artisanat, 

En conclusion, la richesse d’un grand dictionnaire justifie son usage 
comme source de donn6es informatisees avec une multiplicity d 5 applications trds 
satisfaisante. 


saha 

SH2 

1.1. 

VN 

V 

saha 

saha 

tsaha 

ur-saha 

sleb 

SLB1 

1.1. 

VN 

V 

sleb 

sleb 

teslab 

ur islib 

tusleb 

SLB1 

1.2. 

VN 

V 

tusleb 

tusleb 

ttuslab 

ur-tuslib Tu 

selleb 

SLB2 

1.1. 

VN 

V 

selleb 

selleb 

tsellab 

ur-sellib 

steh 

■ i 

SLH1 

■ i 

1.1. 

VN 

V 

sleh 

■ i 

sleh 
■ ■ 

teslah 

i- i 

ur-slih 
■ ■ 

sleh 

SLH2 

1.1. 

VN 

V 

sleh 

sleh 

teslah 

ur-slih 

salh 

SLH2 

1.1. 

VN 

V 

salh 

salh 

tsalah 

ur-salh 

tusleh 

SLH2 

1.2. 

VN 

V 

tusleh 

tusleh 

ttuslah 

ur-tuslih Tu 

msalah 

SLH2 

1.2. 

VN 

V 

msalah 

msalah 

temsalah 

ur-msalah M 

semsalah SLH2 

1.2. 

VN 

V 

semsalah semsalah tsemsalah ur-semsalah 

Sm 

sleh 

SLH3 

1.1. 

VN 

V 

sleh 

sleh 

teslah 

ur-slih 


Au-deli de la publication de ce dictionnaire, que nous esp£rons prochaine, 
de nombreux developpements informatiques nous attendent 
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Abstract 

The exact population of Amazigh speakers is hard to be said since most North 
African countries do not record language data. What is a fact is that Amaz igh is a 
less resourced language with a very low degree of representation on the Web. In a 
society where information in multiple languages is available on the Web, cross- 
language plagiarism is occurring every day with increasing frequency, especially 
for less resourced languages. Potentially this could be the case of Amazigh. The 
lack of resources, such as Amazigh-Arabic and Amazigh-French, makes the 
detection of cross-language plagiarism a real challenge. This paper gives an 
overview of what plagiarism is and what are the available plagiarism detection 
tools, as well as the state-of-the-art plagiarism detection systems, focusing 
especially on the case where plagiarism occurs across languages. Special emphasis 
will be given to cross-language plagiarism in less resourced languages such as 
Amazi gh. 

1. Introduction 

A relatively sparse population speaking a group of closely related and similar 
languages and dialects extends across the Atlas Mountains, the Sahara and the 
northern part of the Sahel in Morocco, Algeria, Niger, Mali, Tunisia, Libya, and 
the Siwa oasis area of Egypt * 1 . There is a movement among speakers of the closely 
related languages to unite them into a single standard language: Amazigh. The 
exact population of Amazigh speakers is not easy to estimate, since most North 
African counfries do not record language data. A survey included in the official 
Moroccan census of 2004 and published by several Moroccan newspapers 2 gave 
the following figures: 34% of people in rural regions spoke Amazigh and 21% in 


1 htto://en. wikmedia.org/wiki/Arnazigh language 

1 http://www.bladi.net/marocain-herhere.html 
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urban zones did, the national average would be 28.4% or 8.52 millions. However, it 
is possible that the survey asked for the language "used in daily life" which would 
result of course in figures clearly lower than those of native speakers. Others 
estimate that the total number of speakers of Amazigh in the Maghreb appears to 
lie anywhere between 16 and 25 (30 millions if Sahel and the Siwa oasis are 
included) whose vast majority are concentrated in Morocco and Algeria. 

In recent years, due to the large amount of text available on the WWW, plagiarism 
cases have increased. Moreover, in a society where information is available on the 
Web in multiple languages, cross-language plagiarism cases are also common, 
especially when the target language is a less resourced one (e.g. Amazigh) and the 
user is more likely to find the information s/he looks for in a more resourced 
language (e.g. English, French or Arabic). The rest of the paper is structured as 
follows. Section 2 defines what plagiarism is and what the different kinds of 
plagiarism are. The available plagiarism detection tools and the best state-of-the-art 
plagiarism detection systems participating at the first of plagiarism detection are 
also described. Section 3 is devoted to cross-language plagiari sm and the first 
attempts to approach it. Special emphasis is given to the case where the target 
language is a less resourced one, such us Amazigh. Finally, in the last section some 
conclusions are drawn. 

2. Plagiarism 

Although often no distinction is made between text reuse and plagiarism and just 
the generic text reuse is employed, there is a narrow difference between the two. 
With text reuse we mean the activity whereby pre-existing written texts are used 
again to create a new text or version (Clough and Gaizauskas, 2009) but this does 
not mean that an infringement is intended: collaborative authoring (e.g. 
Wikipedia), news from press for newspapers (e.g. Reuters, Press Association, etc.), 
etc. In case the reuse of someone else’s prior ideas, processes, results, or words 
occurs without explicitly acknowledging the original author and source then we 
can talk about plagiarism (IEEE, 2008). It has to be said that often plagiarism could 
occur, for instance, in books from narrative and events that could resemble each 
other to plagiarism of ideas (that is not based on words dependency) and plagiarism 
of ideas is nowadays (practically) impossible to be detected automatically. 

Surveys of the research done in automatic plagiarism detection can be read in 
(Clough, 2003) and (Maurer et al., 2006). Plagiarism detection can be divided into 
external plagiarism detection - when, given a suspicious fragment of a document, a 
set of potential source documents is available - and intrinsic plagiarism detection - 
when the lack of a set of potential source documents makes the detection of a 
suspicious fragment more difficult because based only on style changes. 
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2J. Plagiarism Detection Tools 


Many are the tools, some of them freely available, for plagiarism detection. All of 
them are external plagiarism detection tools, that is, their aim is to find the 
potential source fragment plagiarism has been committed from. Of course, this is 
possible only if the set of potential source documents is available. Moreover, they 
perform well only when a simple duplicate (copy-paste) or near-duplicate (use of 
synonyms) plagiarism of fragment occurs. Their performance decreases 
dramatically in case of paraphrasing (Barr6n-Cedeno et al., 2010a) or translated 
plagiarism across languages (Potthast et al., 201 1). Therefore, if from one hand due 
to the large amount of information available on the Web plagiarism has increased 
in recent years and this makes manu al plagiarism detection infeasible (Weber, 
2007; Kulathuramaiyer and Maurer, 2007), from the other hand texts can be easily 
found, manipulated - making usage of paraphrasing or translated plagiarism - and 
combined. Therefore, it is important to stress that automatic plagiarism detection 
has only to assists experts providing them linguistic evidence for the final decision. 


Below the list of ten among the most well-known plagiarism detection tools 
(Valles, 2010): 


i. Turn tii is not a free plagiarism detector tool. It has been developed by John 
Barrie (University of Berkeley) and it is used by more than 50 universities in the 
world 3 4 5 . 


ii. WCopyFind is a tool which was developed in 2004 by Lou Bloomfield, 
University of Virginia. Plagiarism is detected on the basis of the comparison of 
word n-grams (sequence of n words). The size of n is decided by the users although 
for WCopyFind (Dreher, 2007) suggest using hexagrams. 

iii. Ferret 6 is a tool to detect plagiarism that was developed in the University of 
Hertfordshire (Lyon at al., 2006). It is able to analyse documents in different 
formats (PDF, Word and RDF). It extracts trigrams obtaining a similarity measure 
on the basis of the common trigrams between two documents (Malcom and Lane, 
2008). 


3 http://www.tumitin.com/ 

Digital solutions for a new era in information. 2004. iparadigm: 

http://www.iparadigTns.com 

5 http://plagiarism.phvs.virginia.edu/ 

6 http://homepages.feis.herts.ac.uk/ pdgroup/ 
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iv. CopyCatch 7 is a tool designed by CFL Software. It is possible to calculate die 
similarity between two complete documents or some of its sentences. CopyCatch 
needs to have as input the document in order to investigate if some of its parts have 
been plagiarised. It succeeds in detecting the similarity also in case of simple 
paraphrasing: insertions, deletions or change in the order of the words. It works in 
different languages. 

v. iThenticate 8 is a plagiarism detection service for preventing from Web-based 
plagiarism, content verification and intellectual property copyright. Given a 
document, it compares it against its large data base. A report is provided to the user 
in case a similarity is found with other(s) documents). 

vi. Plagiarism Checker 9 is a Web application which has been developed by the 
Department of Education of the University of Maryland. Its aim is to detect 
whether a text is suspicious to be copied. The suspicious text needs to be 
introduced and the application checks for similar texts using the API of Google. It 
is free and fast but, as most of these tools, it is quite unlikely to find the source text 
in case of paraphrasing or translated plagiarism. 

vii. Plagiarism 10 is a freely available tool that has been developed by the Law 
Faculty of the University of Maastricht in order to detect plagiarism cases in the 
essays of their students. Pl@giarism is a simple application for Windows which 
determines the similarity between two documents on the basis of the comparison of 
their trigrams. It returns a table with similarity percentages between the suspicious 
document and its similar documents. 


viii. DOC Cop * 11 is a freely available tool. It returns acceptable results especially if 
the comparison of the suspicious document is made against a smaller data base 
than the Web (Scaife, 2007). A report is sent by email and those fragments 
suspicious to be plagiarised are hi ghlight ed. 


ix. EVE2 12 (Essay Verification Engine) is a tool developed by Canexus. EVE2 
allows checking if students have plagiarised parts of their essay from the Web. It 
returns the links to the Web pages plagiarism is likely to have been committed 
from. Unfortunately it seems to be quite slow: Dreher (Dreher, 2007) carried out an 


7 http://csoftware.com/ 

8 http://www.ithenticate.com/ 

9 http://www.dustball.com/cs/plagiarism.checker/ 

10 http://www.plagiarism.tk/ 

11 http://www.doccon.com/ 

12 http://www.canexus.com/ 
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experiment in order to detect possible plagiarised texts in just 16 pages, containing 
7,300 words, of a M.Sc. thesis and the tool took 20 minutes to process them. 

x. MyDropBos 3 is an online service whose aim is to help the detection of 
plagiarism. The reports that the tool returns are quite well structured in order to 
highlight the links with the sources of the Web where plagiarism is likely to have 
been committed (Scaife, 2007). 

22. External and Intrinsic Plagiarism Detection 

As said previously, methods for automatic plagiarism detection can be divided in 
two main approaches: external plagiarism detection and intrinsic plagiarism 
detection. 


External plagiarism detection can be considered as a task related to information 
retrieval. In fact, given a suspicious document d and a collection of potential source 
documents D, the task is to detect the plagiarised sections in d (if there are any), 
and their respective source sections in D (Potthast et al., 2009). Up to now, 
researchers have paid more attention to this approach (see, for instance, the 
previous section on plagiarism detection tools) because obtaining the source of a 
potential case of plagiarism provides better linguistic evidence to help the expets 
(e.g. forensic linguistics) to make their final decision on whether a fragment of text 
has been plagiarised or not. The problem is that it is not an easy task to find the 
potential source of plagiarism in case the set D of potential source documents is the 
Web itself. In fact, text plagiarism is observed at an unprecedented scale with the 
advent of the World Wide Web (the new term of cyber-plagiarism (Comas and 
Sureda, 2008) has been recentiy introduced to refer to the copy-paste syndrome) 
and this is the real scenario plagiarism detection systems should consider. In terms 
of number of comparisons, the size of the reference data set (e.g. the Web) could be 
a problem from a computational point of view. Therefore, it is important to reduce 
the number of exhaustive comparisons only to those between fragments that are 
more similar. In order to solve the problem of the size of the reference data set, in 
(Barr6n-Cedeno and Rosso, 2009) the authors described a method based on the 
Kullback-Leibler distance (Kullback and Leibler, 1951) for reducing the search 
space (the Kullback-Leibler symmetric distance measures how close the 
probability distributions of the reference and suspicious documents are). 


Most of state-of-the-art plagiarism detection systems base their approach on the 
comparison of word n-grams of the fragments of the suspicious document d and 
those of the documents of the reference data set D (Kasprzak et al., 2009) also 
taking into account vocabulary expansion, for instance with Wordnet 14 (Kang et al.. 


1 1 

httD://www.mvdropbox.com/ 
14 http://wordnct.princctQn.cdu/ 
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2006). The comparison could also be made on the basis of character n-grams 
(Grozea et al., 2009) where character n-grams of the suspicious documents are 
matched against the character n-grams of the source document (see Figure 1). A 
dot means that the character n-gram exists in both documents. A diagonal provides 
linguistic evidence of a possible plagiarism case (e.g. left comer of the graph). A 
diagonal together with a cluster of dots gives less evidence but a certain similarity 
between the two fragments of the suspicious document and the source still occurs 
and deserves to be manually further investigated by the forensic linguistic expert 
who has to make the global decision whether it is a plagiarism case or not. A 
similar plot approach was also employed by (Basile et al., 2009) but instead of 
plotting character n-grams, after a pre-process in which each word was substituted 
by its length (e.g. length = 6), n-grams of numbers were plotted (e.g. substituted by 
its length = 11 2 3 6). Once more, a dot means that the number n-gram exists in 
both documents, and a diagonal provides linguistic evidence of a possible 
plagiarism case (i.e., a sequence of words of the same length is found both in the 
suspicious document and in the source one). 

140000 
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80 000 

60000 

40 000 
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0 

Figure 1. ENCOPLOT: visual approach for external plagiarism detection (Grozea 

et al., 2009) 
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In case of lack of the reference set of potential source documents D, the detection 
of plagiarised fragments has to rely only on changes in the writing style in the 
document. A person could be often able to manually identify potential cases of 
plagiarism by detecting text inconsistencies (unexpected irregularities through a 
document such as changes of style, vocabulary, or complexity are triggers of 
suspicion) or by resembling previously consulted material. Nevertheless, the large 
amount of potential source texts available nowadays makes infeasible this manual 
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plagiarism detection based on writing style change. In order to assist experts, 
automatic intrinsic plagiarism detection methods have been developed aiming to 
detect whether the document d cont ains text fragments written by a different 
author. 


The features considered by these models are, among others, word length average, 
sentences length average, stop-words average, as well as readability and 
vocabulary richness (Meyer zu EiBen and Stein, 2006). The readability of a text 
could be measured, for instance, on the basis of the complex words used (complex 
words are those with three or more syllables) employing indexes such as Gunning 
fog or Flesch (DuBay, 2008). Figure 2 shows how linguistic evidence for 
plagiarism could be provided on the basis of the above measures for intrinsic 
plagiarism detection. In the example, two text fragments (last two columns) are 
compared with the all document (column named as Global). Linguistic evidence is 
provided with respect to the use of more complex words in the first text fragment 
(complexity measure of 17 vs. approx. 14). Once more, the automatic approach has 
die aim to simply assist the forensic linguistic expert who has to be the one making 
the decision. Finally, like for the external plagiarism detection, there are methods 
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that apply character n-gram profiles to characterise an author's style and search for 
irregularities in the document d (Stamatatos, 2009). 


Figure 2. Measures for intrinsic plagiarism detection 


23. Plagiarism Detection Competition 

The development of plagiarism detection models is not new although the large 
amount of information available on the Web plagiarism has increased in recent 
years. One of the first approaches we have track of goes back to the 1970s 
(Ottenstein, 1976). However, after more than 30 years, no standard evaluation 
framework (i.e., standard text collections with documented cases of plagiarism and 
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evaluation measures) existed in order to compare the performance of the different 
plagiarism detection methods. In fact, researchers often used small and private 
(80% of cases (Potthast et al, 2010a)) collections of documents that cannot be 
freely provided to other researchers for ethical reasons. Moreover, they estimated 
the quality of the models by considering different evaluation measures. Therefore, 
with the aim of providing a standard evaluation framework on automatic 
plagiarism detection, together with the Webis research group of Weimar 
University 15 and the universities of the Aegean 16 and of Bar-Dan 17 , the first 
International Competition on Plagiarism detection 18 was organised. In 2011 its 
third edition, sponsored by Yahoo! Research Barcelona 9 , will be organised again 
as one of the benchmarking activities of CLEF evaluation campaign 20 . 

In the first edition (Stein et al., 2009) two tasks were organised: external plagiarism 
detection and intrinsic plagiarism detection. The best approach for external 
plagiarism detection was the ENCOPLOT of (Grozea et al., 2009) and for intrinsic 
plagiarism detection the one of (Stamatatos, 2009). Both approaches were based on 
the comparison of character n-grams. The teams who participated with two of the 
software tools previously described (WCopyFind and Ferret) did not obtain a good 
performance (Potthast et al., 2009). 

In the second edition no distinction between external and intrinsic plagiarism 
detection was made. The best approach was the one of (Kasprzak and Brandejs, 
2010) that was based on word n-grams. In the first edition (Potthast et al., 2009), 
10 teams participated in the external plagiarism detection task and only 4 teams in 
the intrinsic plagiarism detection one. In the second edition (Potthast et al., 2010a), 
although no distinction was made and only one plagiarism detection task was 
organised, many of the 18 teams that participated had their overaU performance 
penalised because they did not solve properly (or they did not solve at all) the 
intrinsic plagiarism cases (30% of total plagiarism cases (Potthast et al., 2010b)). 
The above shows that less attention has been paid from the research community to 
the intrinsic plagiarism detection both because more difficult also in terms of 
giving linguistic evidence without a source document where the plagiarism has 
been committed from. 


15 http://www.uni-weimar.de/cTins/medien/webis/home.html 

16 http://www.icsd.aegean.gr/lecturers/stamatatos/ 

17 http://u.cs.biu.ac.il/~kopp el/ 

18 http://pan.webis.de/ 

19 http://labs.vahoo.com/Yahoo Labs Barcelona 

20 http://clef201 1 .org/index.php?page=pages/labs.html 
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The results of the competition, as well as the description of the evaluation 
measured and the data set (8.4 Giga Bytes, 162,000 plagiarism cases, between 
training and test samples) are available at: http://pan.webis.de . 

3. Cross-language Plagiarism 

In a society where information is available on the Web in multiple languages, 
cross-language plagiarism occurs every day with increasing frequency. This 
behaviour was simulated in the data set of the competition where 14% of 
plagiarism cases were translated plagiarisms from Spanish or German into English 
(Potthast et al., 2010b). 

3.1 Cross-language Plagiarism Detection 

Cross-language plagiarism detection deals with the automatic identification and 
extraction of plagiarism in a multilingual setting. In this setting, a suspicious 
document is given, and the task is to retrieve the source documents of the 
suspicious fragments from a large, multilingual document collection.Up to the 
present time, cross-language plagiarism detection has not been approached 
sufficiently due to its intrinsic complexity. Whereas some commercial tools are 
able to perform plagiarism analyses on different languages, detecting cases of 
translated plagiarism is still in its infancy. In the first edition of the competition no 
team tried to detect the cross-language plagiarism cases (Potthast et al., 2009). In 
the second edition, some teams approached the problem on a monolingual basis 
translating the source documents in Spanish or German into English (Potthast et al., 
2010a). No matter the large size of the data set (8.4 GB, 162,000 plagiarism cases) 
this is still a close scenario but in the open (and more realistic) scenario of the 
Web, it would be not feasible from a computational time point of view translating 
all the documents into the target language plagiarism needs to be investigated (e.g. 
Amazigh). 

Few are the cross-language plagiarism detection approaches that have been 
investigated so far. Probably the two methods with a certain impact are CL-ASA 
(cross-language alignment-based similarity analysis) and CL-ESA (cross-language 
explicit s eman tic analysis). CL-ASA (Barron-Cedeno et al., 2008; Pinto et al., 
2009) is based on the IBM-M1 statistical machine translation model (Brown et al. 
1993) and needs a parallel data set to be trained 21 . It estimates the likelihood of two 
text fragments of being valid translations of each other. CL-ESA is another 
interesting method for cross-language plagiarism detection (Potthast et al., 2008). 
CL-ESA intends to estimate, at se mant ic level, how similar two texts written in 


21 The JRC- Acquis data set was used : http://wt.irc.it/lt/Acquis/ 
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diffident lan guag es ift. This estimation k earned end oa the hmm of a comparable 
data set, sweb as Wikigedi* (Figure 3). The CL- ASA and CL-B8A models have 
b®an compared in (Potihast rt aL, 201 1) with the cross-languBgs sbsrsetss: n-gnra 
fuodel (CL43NC). Despite its. ntifliia^ CL-CNG to be a good choice to 
compare text fragments serosa language* if they ate syntactically reieaai. 



Figure 3. Cross-language explicit semantic analysis (Potthast et ail, 2008). 


Siimkrity between dseumcats d and d' l& computed on the buds of the vector 
space model with indexes the subset of Wikipedia common articles in both 
languages 


3J Cfoss-lsag&age Flagfartisi JDteSS'S^on in Lew R^onnwd Languages 


A less iGMufced language is that with a low degree of reprewealatioa on the Web 
(AlegHa et al, 2009). This makes not always possible to employ previous 
approach's# such s& CLnASA sad CL-ESA. CL-CNG smalm to be a good choice 
bat only if the two languages are syntactically related. 

If few attempts* have been madb to solve toe problem of cross -language plegitadam 
detection, oven leas work has been done to taekte this p rob lem for less resourced 
language*. One of the few wades is the one of (BarTta-Cbdefto et al., 2010b) on 
plagiarism detection across distant language 'pairs where the sotboes investigated 
die ease of Basque, a languid where, due to die lack of resource*, wueg'danguage 
plagiarism is often committed from texts in Spanish and EngUah. Basque has no 
known relatives in fhe language family; however it shares some of its vocabulary 
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with Spanish. Therefore, the CL-CNG method based on character n-grams was 
investigated. CL-CNG was compared with CL-ASA and a method that approached 
the problem from a monolingual perspective calculating the similarity after 
employing a machine translation pre-process (Figure 4). The translation and 
monolingual similarity analysis (T+MA) performed better than the other models. 
As previously said, approaching the problem of cross-language plagiarism 
detection from a monolingual point of view after translating all the documents into 
the target language, would not be computationally possible in a realistic scenario 
such as the Web. 

3 J The Difficulty of Detecting Cross-language Plagiarism in Amazigh 

Maghreb states such Morocco and Algeria have created institutions such as the 
Institute Royal de la Culture Amazighe (IRCAM 22 ) and the Haut Commissariat & 
]'Amazighit6 (HCA 23 ) in order to promote the Amazigh language. In Morocco, 
Amazigh has been introduced in mass media (an Amazigh television channel was 
launched in 2010) and in the educational system ( Amazi gh is taught in various 
Moroccan primary schools). Moreover, IRCAM during just 8 years since its 
creation has published more than 150 books related to the Amazigh language and 
culture, a number which exceeds the whole amount of Amazi gh publications in the 
20th century. No matter these efforts, from a computational linguistic point of view 
Amazigh is still a less resourced language. In fact few are the annotated large data 
set (e.g. (Outahajala et al., 2011)). 



Figure 4. The translation and monolingual similarity analysis model (Barrdn 

Cedefio et al., 2010b) 


22 http://www.iream.ma/ 

23 http://hcaniazighite.org/ 
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The low degree of representation of Amazigh on the Web potentially could be the 
cause of translated plagiarism from languages such as English, Arabic or French 
(Figure 5) where the information could be found more easily. Amazigh is not 
syntactically related to Eng lish, French or Arabic and this makes not feasible using 
the CL-CNG model to detect cases of cross-language plagiarism cases. The lack of 
large parallel (in Amazigh and Arabic, French or English) and comparable data sets 
(e.g. Wikipedia) makes a real challenge the use of the CL-ASA and the CL-ESA 
models previously described. Up to the present time, IRCAM developed three 
parallel lexicons containing words in Amazigh and their equivalent in French 24 
(Ameur et al., 2006), in French and Arabic about media (Ameur et al., 2009), and 
in French-Arabic-English about Amazig h gr ammar 2 ' (Boumalk and Nait-Zerrad, 
2009). However they are small and not parallel data sets of equivalent sentences. 

Last, with respect to the possibility of employing the translation and monolingual 
similarity analysis (T+MA) model an automatic machine translator (French- 
Arabic-English into Amazigh) is needed. The possibility of having to deal with 
data sets in Amazigh written in both Latin or Tifinaghe characters (Figure 5) is also 
a further problem, although it seems that recently texts written in Tifinaghe 
Unicode are increasingly used. 


iga usinag agldan n tussna tamazIGt yat 
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17/10/2001 s unbaD n uglMd muHmmad 
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Figure 5. French-Amazigh cross-language plagiarism: Latin (left) and Tifinaghe 

scripts (right). 


24 httD://www.ircam.ma/fr/index.php?soc=publi&pg=5&rd=64 

25 http://www.ircam.ma/fr/index.php?soc=Publi&pg=2&rd=l 09 

26 http://www.ircam.ma/fr/index.php?soc=publi&pg=2&rd=l 18 
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Source: http://fr.wikipedia.org/wiki/lnstitut royal de la culture amazighe 

4. Conclusions 

Although the problem of plagiarism is well-known, not always people know what 
the available tools for its detection and their li mi tations are. Moreover, in case of 
less resourced languages such as Amazigh, plagiarism from other languages is 
more likely to occur. Automatic cross-language plagiarism detection is still in its 
infancy. Therefore, the detection of translated plagiarism is not possible using the 
available tools. This paper gives an overview of plagiarism detection and, in 
particular, cross-language plagiarism detection: a problem that will have to be 
addressed with special emphasis in the future because every time occurring more 
often especially for less resourced languages. 
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1 . Introduction 

La realisation de la plupart des applications de traitement automatique des langues 
naturelles (TALN) ndcessite un ensemble minimal de ressources lexicales, et la 
rdussite de ces realisations depend fortement des donnges lexicales en liaison avec 
le logiciel de traitement. Par consequent, la qualite, la consistance et la 
normalisation des ressources lexicales est une condition prealable et importante 
pour le developpement duplications robustes et de large couverture. 

Dans le domaine du TALN, la realisation et Sexploitation de bases lexicales est en 
pleine explosion, et de nombreux travaux ont ete realises pour ddvelopper des 
ressources lexicales ayant des structures diffdrentes et r6pondant & des besoms 
diffSrents. Ces realisations on 6t6 accompagne par des propositions de 
standardisation tel que le TEI (Text Encoding Initiative) (cr6e par le consortium 
TEI en 1987), le WordNet (universite de Princeton, 1993) et le LMF (Lexical 
Markup Framework) (Francopoulo G. et al, 2006). 

Dans ce travail, nous proposons d’utiliser la norme LMF pour une representation 
normalisee de la base lexicale de donn6es de 1’IERA, cette norme est une initiative 
rdcente vers des normes ISO pour la conception, la mise en oeuvre et la 
representation des ressources lexicales. 

L'idde fondamentale de LMF est de fourair une plate-forme de specification qui 
permet d’utiliser un ensemble de modules generiques (composants) qui seront 
combines avec des descripteurs elementaires (categories de donnees) (Salmon-Alt 
S. et al, 2005). Cette specification est prevue pour couvrir non seulement une 
grande variete de structures lexicales possibles, mais dgalement im large eventail 
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de langues. Les principes de specification du LMF peuvent aussi etre utilises soit 
comme un nouvel outil descriptif pour des ressources lexicales existantes du TAL, 
soit constituer une base pour la conception de nouvelles bases de donnees 
lexicales. Dans ce travail, nous essayerons d’illustrer ce premier aspect par une 
dtude de cas sur l*utilisation de la plate-forme de specification de LMF comme 
nouvel outil descriptif de la base lexicale existante k 1’IERA. Pour cela, nous allons 
presenter les principales caracteristiques des bases lexicales de 1’IERA en insistant 
notamment sur leurs specificites structurelles, ensuite nous argumenterons le choix 
de la modeiisation LMF pour la normalisation de la representation de ces 
ressources en travaillant sur un echantillon du dictionnaire de la langue generale 
arabe/fran^ais. Nous detaillerons ensuite le modele no rmal ise que nous proposons. 

2. Caracteristiques lexicales de la base lexicale de 1’IERA 

Durant les annees 80 a 90, 1’IERA a entrepris la construction d’une grande banque 
de donnees lexicales divisee en deux axes, le premier axe est d’ordre 
terminologique et il englobe plusieurs domaines du savoir tel que l’agriculture, 
1’ automobile, la chimie, l’electricite, l’industrie, la zoologie et autres, ces domaines 
de savoir sont eux aussi regroupes en trois macros disciplines : les sciences 
fondamentales et naturelles, les sciences appliqu6es et techniques et les sciences 
humaines et sociales. Le deuxifeme axe de la banque de donndes englobe quant k 
lui deux dictionnaires bilingues de la langue gdndrale : Arabe/Franqais et 
Arabe/ Anglais. 

L 'unite de base de la structure de la base de donnees est l’unite lexicale (lexeme) 1 . 
La base se compose d’un ensemble d’equivalences de sens etablies par un 
document (source) entre une ou plusieurs unites lexicales en langue(s) europdens et 
une ou plusieurs unites lexicales en langue arabe qu’il fallait restituer telle se 
prdsentait dans le document (Richard N., 1987). Les relations peuvent etre simples 
(relation un lexeme arabe k un lexeme europden) ou complexes (relation entre N & 
N). 

Durant sa constitution et son evolution, la banque a connu une grande diversite au 
niveau de sa structure et de son contenu. Cette diversite est due non seulement a la 
specificite des donnees traitees, mais aussi a la multitude des intervenants, aux 
differentes orientations strategiques et aux contraintes techniques imposees par le 


1 Lexeme : Le lexeme (aussi appeld unitd lexicale par le Conseil supdrieur de la langue franfaise et de nombieux 
g rarnrnair iens et lexicographes) est le morpheme lexical d’un lemme. 
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degre du developpement technologique dans le temps. Cette diversity peut etre 
resumee dans les points suivants : 

■ La description du contenu des entries linguistiques varie d’un dictionnaire & 
1’ autre selon la pfriode de sa creation et ne r6pondait pas 4 un formalisme bien 
d6termin6. 

■ Certaines entries lexicales se contentent d’exemples pour d^finir le sens d’un 
mot, d’autres par un commentaire. Les informations d’ordre morphosyntaxique 
ne sont pas standardisees et sont plus ou moins riches d’un dictio nnair e a un 
autre, etc. 

■ Les categories des donnees utilisees ne sont pas unifiees au niveau de la 
banque et varient d’une base lexicale a une autre. 

La reutilisation de ces ressources lexicales pose done plusieurs problemes a cause 
de la variation de leurs structures et de leurs descripteurs linguistiques, et l’echange 
de donnees entre les ressources lexicales est ties difficile. Par ailleurs, le systeme 
de consultation accompagnant cette banque offie une recherche limitde ne 
depassant pas l’aspect lexical. 

Afin de faciliter les echanges de ces ressources lexicales a travers la communaute 
du TALN, il est important de normaliser la presentation lexicale de ces ressources 
pour permettre leurs fusions, leurs reutilisations et leurs interoperabilites. 

3. Structures de la base lexicale de 1’IERA 

La structure de la banque de 1’IERA a connu la succession de plusieurs versions 
importantes, ces versions traduisaient des ambitions des plus amples au plus 
realistes et relatives tant a la qualite qu’a la quantite des donnees stockees. La 
demi&re structure qui a marqu6 la banque de donn6es est illustr£6 ci-aprds (Richard 
N., 1987) : 

Le v6hicule d’information dans cette structure est la relation s&nantique qui existe 
entre deux lexemes, cette relation est identifiee par un identifiant unique appele 
"Numero d'accession". 

Les categories d’informations distribuees dans une relation semantique sont : 

- L’unite de base appelee " Entree 11 et qui est co^ue comme un lexeme relatif 
aux langues traitees (Arabe ; Fran 9 ais ; Anglais ; Latin). 

- Des informations compl6mentaires : 

1 . Informations sur le la relation : 

a. Source de la relation "SC"; document original d’ou etait tiree la 
relation. 

b. Domaine d’emploi "DE"; qui situe l’usage particulier des termes et done 
le domaine d’application de la notion presentee par ces termes. 
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c. Commentaire ou D6finition "CM" 

2. Informations relatives aux termes (lexemes) dans chacune des langues 
qu’il traite: 

a. Categories grammaticales (verbe ou nom ou adjectif, genre, nombre, 
racine, masdar, etc.), elles sont inserees a la fin du champ d’ entree 
lexicale entre deux #, 

Ex : blanc adj., #fem. blanche# 

^ ; j. > (jiaa : jr# 

b. Relations avec d’autres termes (Related Terms) : homonymie, 
synonymie, autres 

L’entrde lexicale dans le dictionnaire de la langue generale de 1’IERA est 
represente sous une forme canonique entierement vocalisee qu’on appelle lemme2 
(un nom doit etre au singulier, un verbe doit etre a 1’ accompli avec la troisieme 
personne du singulier etc.). Un lemme peut dtre formd par un mot simple ou un mot 
compost 


NO : (Num6ro d’ accession) 


SC : (Source) 

(-)■*-“) 

DE : (Domaine d’emploi) 

(JLuluat ; L» 

FR : (Entree fran^ais) #...# 

#...# ( “UiJ) 

CM : (Commentaire) 


EN : (Entr6e anglais) 


LT : (Entree latin) 



Ex : structure d’une relation semantique 


NO : SGHO 10436 


SC : GHA 


DE : sc. nat. 

is*#)* 1* 

FRA : sapotillier, neflier, d’Amerique 
sapotier 


ENG : sapota, sapodilla plum, naseberry 



1 Le mm e : mot; expression ou phrase 
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LAT : achras, sapota, sapota achras 

:J3 

CM: 



Ex: exemple d’une relation lexicale 

Devant les limites mentionnees ci-dessus, et en vue de donner a la base lexicale de 
PIERA une nouvelle vie, une modelisation de la base lexicale est necessaire. Cette 
modelisation permettra de profiter de la richesse du contenu des dictionnaires de 
1’IERA en ru ni fiant dans une structure evolutive, a partir de laquelle, il est 
possible de realiser des fonctions de consultation generiques et adaptees aux 
besoins des utilisateurs. 

4. Choix de LMF comme norme de standardisation 

L’objectif de LMF est de foumir un module commun pour la creation et l*utilisation 
de ressources lexicales moyennant une structure modulaire qui facilite 
l’interoperabilite du contenu a travers tous les aspects des ressources lexicales 
(Francopoulo G. et al, 2006). 

La norme LMF ISO 24613 est parfaitement adaptee il notre but car elle permet : 

• Une specification des lexiques monolingues et multilingues destines a la fois a 
un usage editorial ou TALN. 

• Une modelisation extensible et modulaire couvrant tous les niveaux de 
description linguistique (morphologie, syntaxe, sdmantique). 

• Une gestion separee de la structure hierarchique des donnees (meta-modele 
noyau) et des descripteurs linguistiques 616mentaires (categories de donn6es) 
(Salmon-Alt S. et al, 2005). 

• Une certaine souplesse pour la modelisation des caracteristiques 
morphologiques de la langue arabe (flexionnelle et derivationnelle) ainsi, les 
entrees lexicales sont repr6sent6es par la racine et le scheme (Khemakhem A. et 
al, 2007). 

5. Presentation g£n£rale de LMF 

Dans sa demiere version, la norme LMF ISO-246 13:2008 (qui permet de specifier 
des lexiques monolingues et multilingues destines a l’usage TALN) (Francopoulo 
G. et George M, 2008) a ete validee convenablement pour plusieurs langues 
europeennes, asiatiques et americaines. Cependant pour la langue arabe, des 
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travaux ont iti realises dans le cadre d’un projet de cooperation Tuniso-Frangais 3 
pour confronted la norme LMF aux specificites de la langue arabe. Ce projet a 
abouti a un enrichissement de la norme par les specificites et les exigences de la 
langue arabe. 

Un lexique LMF se prisente sous forme d’un mita-modile noyau obligatoire et un 
ensemble d’extensions optionnelles qui dicrivent les ressources lexicales 
spicifiques en riutilisant les composants du noyau (Francopoulo G. et al, 2006). Le 
meta-modele noyau forme une structure hiirarchique des classes UML qui specifie 
les notions de lexique, de l’entee lexicale, de forme et de sens. LMF foumit un 
mecanisme permettant de specifier le contenu des classes du meta-modele noyau a 
l'aide de descripteurs elementaires sous forme de couples "Attribut-Valeur" di finis 
par une autre norme ISO 12620, appelie categories de donnies (RCD) (Romary L. 
et al, 2003) consultable et editable en ligne (http://syntax.inist.fr.). Les categories 
de donnies reflitent les concepts de base linguistique, tels que /partOfSpeech/, 
/Genre/, /Nombre/ et ils sont stockis et giris indipendamment de la structure 
hiirarchique du modile de donnies. 

6. Modele normalise des dictionnaires de la langue generate 
de 1’IERA 

En se referant a la demiere revision de LMF v.16 (Francopoulo G. et George M., 
2008), notre lexique sera limite a la representation de niveau morphologique qui 
nous parait necessaire pour la plupart des applications TAL. 

Nous avons retenu cinq classes pour la modilisation du noyau & savoir : Database, 
Lexicon, Lexicon Information, Lexical Entry, Form dont les deux sous-classes de 
spicification de Form: LemmatisedForm et InflectedForm. Toutes ces classes sont 
reprisenties dans la Fig. 1 . 

Pour le codage de l'information flexionnelle, nous avons adopte dilibiriment une 
perspective extensionnelle, c.-a-d. une description de l’ensemble des formes 
(LemmatisedForm et InflectedForm) pour une entree lexicale donnee. Ainsi nous 
allons utiliser un conjugueur arabe (developpe a 1’IERA) pour recuperer les mots 
flichis de chaque LemmatisedForm des entries lexicales du modile. 


3 Entre le laboratoire MIRACL de l’universit6 de S&x en Tunisie, et le laboratoire LORIA/INRIA en Fiance. 


*• 76 *• 


LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


En langue arabe, la majorite des mots (verbe et noms derivables) sont identifiees 
par une racine et un scheme, ceci implique la specification de la classe 
LexicalEntry par les categories de donnees /root/, /scheme/ et /pos/, dont les 
valeurs sont prises du RCD. La classe Form represente les differentes variations 
orthographiques et phonologiques de la classe LexicalEntry avec des specifications 
grammaticales. La combinaison d’une racine et d’un scheme peut generer une ou 
plusieurs LemmatisedForm qui repr6sentent le lemme de LexicalEntry. Un lemme 
peut avoir plusieurs InflectedForm qui representent les formes fl£chies 
correspondant h une forme d’occurrence d’une LemmatisedForm Fig. 2. 



Fig. 1 . Le module noyau avec 
1’ extension morphologique 
(extensionnelle) 


7. Les categories de donnees du modele morphologique 

Le lexique de la langue arabe comprend trois categories de mots : verbe, nom et 
particule. Pour notre module il s’impose maintenant de decider quelles sont les 
proprietes flexionnelles qui sont appropriees pour chaque categorie de mots. Dans 
le cadre de ce papier, nous nous interesserons settlement aux categories morpho- 
syntaxiques des noms et des verbes. 
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Cos des Notns 

Les noms arabes ont plusieurs sous-categories qui peuvent etre variables ou 
invariables, generalement les noms variables ont plusieurs formes flechies qui sont 
associees aux categories de donnees (Voir Tabl). Les noms arabes portent des 
informations grammaticale sur le genre, mais concemant le nombre, la particularity 
de l'arabe est d’avoir un syst&ne i quatre valeurs: singulier, dual, pluriel et pluriel 
bris6. Les noms arabes sont 6galement sounds k une variation de cas: nominatif, 
accusatif et genitif. En outre, ils sont definis de trois fa?ons : soit avec 1’ article J', 
soit par un syntagme nominal ou soit par des pronoms personnels dans une 

structure possessive (i^). Les noms arabes sont aussi soit d&finissable par Ji , soit 
non definissable par J quand il s’agit de noms propres ou de noms indetermines 
par la desinence " Tanwin". 


Data Category Identifier 

Conceptual Range 

/wordForm/ 

orthographe de la forme flechie 

/grammaticalGender/ 

{/masculine/, feminne/, /neutre/} 

/grammaticalNumber/ 

{/singular/, /dual/, /plural/, /plural broker/} 

/grammaticalCase/ 

{/nominative/, /accusative/, /genetive/} 

/grammaticalDefiniteness/ 

{/indefinite/, /definite/} 

/ellnclusion/ 

{/yes/, /no/} 


Tabl. Categories de donnees des noms 


Cas des verbes 

Les verbes arabes sont sounds a un systeme de variation flexionnelle en associant, 
a chaque forme flechie ou combinaison de traits morphologiques d’un verbe, les 
categories de donnees mentionnees dans le tab2. En outre, la combinaison de ces 
caracteristiques est conditionnee par des contraintes de cooccurrence particuliere: 
le mode ne s'appliquant que pom l’inaccompli, le genre s’applique seulement avec 
2 6me et 3 41116 personne et la voix passive est incompatible avec le mode imperatif. 
En plus de ces categories de donnees, les verbes arabes varient 6galement en 
termes de nombre, personne et genre grammatical. 
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Data Category Identifier 

Conceptual Range 

/wordForm/ 

orthographe de la forme fl6chie 

/grammaticalNumber/ 

{/singular/, /dual/, /plural/} 

/grammaticalGender/ 

{/masculine/, feminine/, /neutre/} 

/grammaticalFerson/ 

{/firstPerson/, /secondPerson/, /thirdPerson/} 

/grammaticalAspect/ 

{/Accomplished/, /Unaccomplished/, / Imperative 
!} 

/grammaticalV oice/ 

{/active/, /passive/} 

/grammaticalMood/ 

{/indicative/, /subjunctive/, /jussive/} 


Tab2. Categories de donnees d’inflexion de verbe 


Generalement le nombre de traits morphologiques peut varier d’une forme flechie a 
une autre parce qu’il y a des traits morphologiques dont la presence depend d’un 
autre trait : par exemple le genre est absent avec la premiere personne 
(/firstPerson/). 

8. Mise en oeuvre du modele morphologique 

Dans une premiere etape, nous limiterons la mise en oeuvre de notre modele au 
traitement des verbes arabes, et dans une 6tape ultdrieure, elle sera g6n6ralis6e aux 
noms. 

Gn suivant la representation extensionnelle du modele, et en utilisant le conjugueur 
des verbes developpe a 1’IERA, nous allons pouvoir recuperer toutes les formes 
Heebies des verbes arabes Fig. 3. 
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Fig .3. Architecture de construction du lexique normalise 

Concemant les noms arabes, nous utiliserons l’analyseur morphologique des mots 
arabes (elabore aussi a 1’IERA) pour extraire toutes les informations necessaires a 
la constitution du lexique. Ici, une intervention humaine de verification et de 
validation est necessaire vue que l’analyseur ne pourra pas analyser la totalite des 
noms arabes, neanmoins, un grand nombre de noms pourront etre analyses 
automatiquement. Ces formes flechies sont accompagnees de leurs categories de 
donnees mentionnees dans le tab. 2. 

9. Conclusion 

Dans ce papier nous avons propose un modele conforme a la norme LMF ISO 
24613 qui permet de normaliser la representation des ressources lexicales de 
1’IERA en construisant un lexique plein forme a usage TALN a partir du 
dictionnaire de la langue generale. Ce lexique est ouvert a toute possibility 
d’ extension. 

Actuellement, la mise en oeuvre du lexique se limitera dans un premier temps aux 
verbes arabes. Dans une seconde etape, elle sera generalisee aux noms arabes. 

Durant ce travail, nous avons essaye de focaliser notre attention sur la modelisation 
des bases lexicales de 1’IERA selon des normes internationales. Cependant, et 
concernant l’exhaustivite des trais morphologiques et linguistiques, le modele est 
certes extensible, mais l’accomplissement de ce travail nous amenera a travailler 
d’avantage et en etroite collaboration avec des linguistes afm d’enrichir la structure 
du lexique par des categories de donnees appropries. 
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Proposition pour la creation d'un groupe TEI 
berbere federant la mise en chantier d'un sous- 
ensemble de Guidelines specifiques assurant la 
qualite d'interoperabilite des ressources 

linguistiques amazighes 


Henri Hudrisier 

Laboratoire Paragraphe et LEDEN 
Henri.hudrisier@wanadoo.fr 


En tant que chercheur non-berberophone, mais cependant associe a de nombreuses 
occasions a des travaux de reflexion inities par des institutions dediees a la culture 
berbere, j’ai pu beneficier d’une certaine neutralite d’observation en qui conceme 
la mise en place des projets d’environnements techniques numeriques berberes. 

Comme dans de tr&s nombreux autres chantiers de rassemblement de ressources 
patrimoniales et linguistiques, le probldme est certes technique (il est trds bien et 
trds exhaustivement ddcrit dans les thdmatiques de l’appel & communications de ce 
4 e workshop) mais ce qui manque toujours le plus c’est une rdelle dynamique de 
fdddration mondialisde des intervenants et des institutions. Cette situation est 
commune a tous les projets 1 et elle est trap souvent sous-estimee. 

De ce point de vue, le travail qui me semble urgent k mettre en chantier consiste k 
feddrer les savoirs et les savoir-faire des intervenants du « numfrique berbere ». 
Pour r6aliser ce projet, il manque un « super forum ou super Wiki numdrique » 


1 Farce qu’on achoppe inevitablement sur la legitime identity des persormalitds, des 
institutions et des Etats qui ne se dissolvent pas dans l’espace numerique mondial. On 
achoppe aussi tres souvent sur le retour sur investissement des differents partenaires 
potentiels des projets de «reseau numerique ». De ce fait les reseaux numeriques des 
multinationales & vis6e commerciale se mettent en place beaucoup plus facilement que des 
projets s imilair es k finalitd culturelle dans lesquels les partenariats financiers ne sont jamais 
explicites. 
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susceptible d’assurer a la fois leur federation en tant que groupe d’intervenants 
apportant chacun ses contraintes propres 2 3 mais aussi a meme de leur offrir un 
environnement numerique qui soit aussi un « espace numerique de travail » et une 
« boite a outils » qui leur soient communs. H faut aussi que cet espace de travail et 
cette boite k outils soient susceptibles de se param6trer en fonction des besoins 
propres k tel ou tel ou tel m&tier, discipline scientifique ou specificity des corpus 
linguistiques. 

De mon point de vue, la TEI est « la » solution qui fait aujourd’hui runanimite 
pour repondre precisement a cette double contrainte : fcdcrcr les chercheurs en 
ressources linguistiques et leur offrir un environnement de travail repondant a leurs 
diverses exigences et susceptible en meme temps de rnettre en synergie cette 
diversity de besoins pour ne pas en faire autant d’obstacles a un travail qui se doit 
de rester une mise en synergie. 

1. La TEI : un cadre tant technique que collaborate adapte 
a la gestion numerique des documents a haute valeur 
ajoutee 

La TEI que l’on pourrait traduire par « groupe d’initiative pour l’encodage 
normalise des textes » est un standard de balisage, de notation et d’echanges de 
corpus de documents electroniques fonde sur l’utilisation systematique de 
langages bafisys (Markup Language comme le SGML et maintenant le XML) 
spycialement amynagys pour permettre la pose virtuelle de balises (des signets) tant 
symantiques, que structurels ou tyfyrentiels. L’ originality de la communauty des 
cherchetirs (k l’origine en majority des spycialistes des ytudes littyraires associys £ 
des bibliothycaires et des informaticiens spycialistes de la numyrisation des textes), 
tient k ce qu’ils ont tr^s tot compris que le traitement s6mantique des documents 
numeriques depend, certes des nouvelles opportunites de ces langages balises, mais 
aussi et d’abord, de la capacity des chercheurs a s’entendre, en consensus pour 
definir les fondamentaux de leur discipline de recherche et creer ainsi des TEI 


2 A leur mdtier, k leur discipline scientifique, £ leur parler berbyre. 

3 Specifique par la langue (tel ou tel parler berbere ou telle langue autre traitant de sujet 
berbere), spdcifique par le mddia (TV, radio, ressources dcrites manuscrites ou imprimyes, 
ressources numdriques) ou le genre (corpus oraux ou dcrits, dictionnaires, littdrature savante 
de jeunesse ou grand public, contes, podmcs ou chansons etc . . .) 
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specialises a meme de faciliter l’echange de leurs resultats. Ont ete ainsi creees la 
TEIverse pour les etudes poetiques, la TEIdrama pour les etudes theatrales et ma 
proposition serait que nous puissions fonder une TEIberb&re ce qui n’a rien d’une 
utopie. 


La fondation de la TGI remonte 4 une conference qui s’est r£unie au Vassar 
College 4 Poughkeepsie (NY -USA) en novembre 1987. Les discussions, dans un 
groupe d’une trentaine de chercheurs venant des domaines de la biblioth^conomie, 
des sciences humaines, de la litterature et de la recherche informatique 4 ont about! 
a des recommandations pour deflnir un systeme commun d’encodage des 
documents textuels : ce colloque du Vassar College est a l’origine du « groupe 
d’initiative TEI 5 » qui fut cree officiellement en 1988 par trois associations 
professionnelles ayant des activity de recherche dans le domaine du traitement de 
textes par ordinateur: 

1 'Association for Computational Linguistics (ACL 6 ), 

V Association for literary and Linguistic Computing (ALLC )> 


4 Ils avaient particip£ k la recherche d6veloppement de SGML ( Standard Generalized 
Markup Language )> le langage a balises (Markup Language) historique qui a precede 
HTML (Hyper Text Markup Language) puis XML (Extended Markup Language ). 

5 II faut bien cotnprendre le mot initiative dans son sens anglais qui peut etre k la fois 
Faction mais aussi un groupe de pression, un groupe de travail cr66 pour faire avancer une 
action. 

6 L 1 Association pour la Linguistique Informatique est une societe savante et professionnelle 
international e pour tous ceux qui s’intdressent aux questions posSes par 1 ’ informati sation du 
langage naturel. L’adhesion inclut l'ACL le journal trimestriel, la Linguistique 
Informatique, Tabonnement a V edition resumee des conferences et la participation dans des 
groupes de travail et d’6tudes ACL. Le journal ACL : Linguistique Informatique est 
aujourd*hui le forum principal pour la recherche sur la linguistique informatique et le 
traitement de langage naturel. Depuis 1988, le journal a 6t 6 public pour l'ACL, les presses 
du MIT lui assurent une base de distribution mondiale. 

7 L'Association pour la Linguistique Computationelle Litteraire a ete fondee en 1973 dans 
le but de soutenir l'application de F informatique dans l'etude de la langue et de la litterature. 
Les intdrets des membres de l'Association se sont ndcessairement dlargis, (avec le progr^s 
de Fingdnierie du langage) pour englober non seulement l'analyse de textes et des corpus de 
langue, mais r6pondre aussi au traitement des Editions dlectroniques. L’ adhesion h 
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L’Association for Computing and the Humanities (ACn ). 

La TEI a ete fmancee an depart par : 

l ’US National Edowmentfor the Humanities, 
la Communaute europ£enne (DG13), 

le Social Science and Humanities Research Council du Canada, 
la Fondation Andrew W. Mellon. 

Notons que des informaticiens pionniers fondateurs de la TEI ont £t£ directement h 
l’origine de certains d£veloppements fondamentaux de XML * * * * * * 8 9 (Extended Markup 
Language). C’est la raison pour laquelle la TEI qui a 6t6 cr66e h ses debuts sur un 
substrat logiciel SGML a maintenant totalement migre sur XML. 

L’originalite de cette co mmuna ute de chercheurs volontariste dans son amalgame 
multidisciplinaire), tient k ce qu’ils ont tres tdt compris que le traitement 
s^mantique des documents numgriques d£coulait certes des nouvelles possibility 
offertes par les langages balis6s qui talent en pleine Emergence avec le SGML 
(Standard Generalized Markup Language ), mais aussi, et en premier, d6pendait de 
la capacite des chercheurs a s’entendre en consensus pour defmir les fondamentaux 
de letirs disciplines de recherche et creer ainsi des TEI specialises, a meme de 


l'ALLC'S est ouverte & tous les pays du monde et A toutes les disciplines que l’on qualifie 

sous les termes g6n6riques de disciplines litt6raires (chercheurs ou etudiants). 

L’Association 6dite un journal : Literary and Linguistic Computings public par Oxford 

University Press . Chaque annee Passociation organise une conference pl6niere, en 

collaboration avec VAssociation for Computers and the Humanities . Les conferences 

plenieres se situent altemativement en Europe et en Amerique du Nord. 

8 L'Association pour l’usage de l’informatique dans les lettres et autxes sciences humaines 
qualffiables du terme g6n6rique : Humar t6s. Depuis sa fondation, ACH a 6t6 la societe 
professionnelle intemationale de reference pour la recherche assistee par ordinateur pour la 
litterature et les etudes de langue, Phistoire, la philosophie et d’autres disciplines 
dhumanites. L’ACH est particulierement impliquee dans les recherches sur la manipulation 
et l'analyse de corpus textuels. L'ACH s’attache particulierement i disseminer des 
informations et des logiciels parmi les membres de ses group es de travail. Elle encourage 
aussi le developpement et la dissemination de ressources textuelles et linguistiques 
significatives. 

9 Lou Bumard et C.M. Sperberg Me Queen. 
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faciliter la numerisation de leurs recherches et de l’echange de leurs resultats. Les 
fondateurs de la TEI souhaitaient un systeme de balisage et un format communs 
standardises facilitant le traitement par ordinateur, l'echange et le partage des textes 
numerises. 

Citons deux de ses fondateurs (Ide N. & all 1996) relatant les exigences techniques 
et scientifiques de sa fondation. 

« A l’epoque, l’enorme variete des formats de codage et de representation des 
textes (& peu pr&s tous mutuellement incompatibles) 6tait perdue comme un 
obstacle majeur a l’echange des donnees et a la recherche. Les chercheurs presents 
a Vassar sont tombes d’ accord sur la necessity de travailler a la definition d’un 
nouveau format de codage des textes glectroniques et en ont pos6 les principes de 
base. Le nouveau format devait: 

6tre aussi complet que possible, 

etre simple, clair et concret, 

6tre facile k utiliser sans logiciel particulier, 

etre rigoureusement defini, 

- permettre un traitement efficace, 

etre ouvert a des extensions definies par les utilisateurs, etre compatible avec 
les standards existants ou en developpement. 


[...] De nombreux chercheurs & travers le monde ont travailld regroup6s dans des 
comit6s traitant chacun d’un thdme pr6cis. L’ensemble a 6t6 coordonnd par un 
Comit6 de Pilotage (pr6sid6 successivement par Nancy Ide, Don Walker, Susan 
Hockey et David Barnard) et deux 6diteurs (Michael Sperberg-McQueen et Lou 
Bumard). 

En mai 1994, le travail effectue par les differents comites a ete publie sous forme 
de Guidelines for Electronic Text Encoding and Interchange (« Recommandations 
pour le codage et l’echange des textes informatises »), aussi connues sous le nom 
de « TEI P3 ». Ces Recommandations proposent un ensemble de conventions de 
codage utilisable dans une grande vari6t6 d’ applications : publication 61ectronique, 
analyse litt6raire et historique, lexicographie, traitement automatique des langues, 
recherche documentaire, hypertexte, etc. C’est aujourd’hui un consortium 
academique international, cree en 1987, dans le but de developper les 
recommandations pour le codage et l’echange de donnees linguistiques et 
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litteraires. En mai 1994, le travail effectue par les differents comites a ete publie 
sous forme de « Recommandations pour le codage et l’echange des textes 
informatises » ( Guidelines for the Encoding and Interchange of Machine-Readable 
Texts), aussi connues sous le nom de TEI P3, reposant sur les DTD du SGML. » 


Ces directives proposent un ensemble de conventions de codage utilisables dans 
une grande vari6t6 d’ applications : publication 61ectronique, analyse litteraire et 
historique, lexicographie, traitement automatique des langues, recherche 
documentaire, hypertexte, etc. Les directives concement les textes ecrits ou paries, 
sans restriction de langue, de periode, de genre ou de contenu et repondent aux 
besoins fondamentaux de nombreux d’utilisateurs: lexicographes, linguistes, 
philologues, bibliothecaires, et de maniere generate, de tous ceux qui sont 
concemes par 1’archivage et l’acces & des documents electroniques. 

Trois aspects du codage des textes sont particulidrement mis en avant par la TEI : 

- documentation de textes : les documents TEI doivent fourair obligatoirement les 
informations bibliographiques sur le texts lui-meme et son codage. Ces 
informations sont balisees dans la partie en-tete « TEIheader » se trouvant au debut 
de chaque document cod£ en TEI.Ceci est particulidrement important parce que 
gr&ce & ses differents « desks (ou zones) 10 », le TEIheader permet de documenter 
beaucoup mieux qu’une fiche bibliographique classique les differents niveaux et 
versus d’un document numerique : distinguer la source (document primaire) de ses 
etats numeriques, pouvoir documenter les auteurs, les dates et institutions de la 
num£risation ou ensuite des differents balisages. 

- representation de textes : la TEI propose un systeme de balises pour coder la 
description de structure logique de differents types de documents (textes ecrits ou 
paries, prose litteraire, po6sie, theatre, dictionnaires, donnees terminologiques, 
hypermedias etc.) 


- analyse et interpretation de textes : les directives de la TEI contiennent des jeux 
de balises pour le codage des references croisees ou des index dans les textes, des 
analyses linguistiques et des informations concemant 1’ etude litteraire. 

Soulignons aussi Timportance de la communaute des « activistes et des fondateurs 
de la TEI » dans la recherche, le d6veloppement, puis la mise en oeuvre effective de 
projet de gestion des documents numeriques a haute valeur ajoutee. On ignore 
souvent que plusieurs informaticiens fondateurs de la TEI ont ete dans l’equipe qui 


10 <fileDesc> <encodingDesc <profileDesc> <revisionDesO cf infra. 
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a developpe XML. Ce contexte particulierement riche en expertise nous permet 
d’envisager les conditions de constitution d’un college international de chercheurs 
a meme d’atnorcer, puis de finaliser la noise au point d’un modele de deployment 
numerique de ressources numeriques structurees par TEIberbkre. 

2. Les enjeux scientifiques de la TEI 

La TEI a ete noise au point pour que des chercheurs, au debut, principalement des 
chercheurs en sciences humaines, puis sent non seulement echanger des corpus de 
textes, mais aussi disposer en commun d’un systeme de balisage et d’annotations 
normalisees. SGML, comme on le sait, est a l’origine un balisage issu de 
l’organisation des textes necessaires aux editeurs. Le coeur de la TEI reprend les 
dldments d’ analyse necessaires pour ddcrire la structuration fonctionnelle d’un 
texte (titre, avertissement, preface, corps du texte decompose en chapitres et sous 
chapitres, index, table des matures, etc.) initie avec SGML. II a ete tres 
significativement augmente pour constituer ce que nous sommes convenus 
d’appeler le « noyau TEI ». 

Selon la discipline a laquelle appartient un chercheur utilisant la TEI, il lui sera 
ensuite commode d’utiliser, au-dete de ce noyau, les elements de niveau 
disciplinaire qu’il jugera utile £ sa recherche. L’amenagement de textes par des 
chercheurs, selon la norme TEI, permet des lors, que des chercheurs en litterature, 
en histoire, en ethnologie, etc. puisse ainsi, chacun dans leur discipline propre, (et 
meme hors de leur discipline), proceder k des echanges de corpus comprenant aussi 
bien les textes que leurs annotations conceptuelles. 

On comprend ainsi que (contrairement k ce que pensent parfois des professionnels 
de la documentation ou des gestionnaires de gros corpus de documents), la TEI est 
beaucoup plus qu’un simple format d’6change de gros corpus de textes. C’est aussi 
un vaste forum d’6change et d’ accumulation des apports conceptuels d’autres 
chercheurs en sciences humaines. Avant la TEI, cette transmission ne pouvait se 
rdaliser que par la lecture et « T assimilation intellectuelle individuelle » des articles 
et ouvrages, suivies d’une reprise personnelle non instrumentalisable 11 des 
elements du corpus selon les resultats transmis par ces articles et ces ouvrages. La 
TEI ne dispense pas de lire nos collegues, bien au contraire, mais elle nous permet, 
comme en sciences exactes, de disposer directement et de fa$on normalisee 


11 Les informal! ciens disent non calculable, non « computarisable ». 
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numerique et immediatement utilisable des textes « traites » selon les hypotheses 
d’autrui. 

C’est cela qui change tout. La TEI permet ainsi de mettre en chantier et de fa$on 
tr£s facilement collaborative de vastes projets linguistiques, d’analyse littoraire, 
philologique, d’analyse compar^e multilingue, etc. . . Le systome de balisage etant 
d6fini & la fois entre tous de fa§on multidisciplinaire, puis, ensuite au niveau de 
chaque discipline, les corpus peuvent ainsi etre « augments » en passant de l’un it 
r autre. On peut aussi (et c’est tres productif pour les travaux en TAL), beneficier 
d’autres chercheurs travaillant sur d’autres langues et beneficier de tout ou partie 
de leurs conventions de balisage. 

Le contexte materiel de la definition de ces Junctions de balisages 

On l’a deja souligne, il existe une synergic et une similitude entre ce qui peut etre 
fait en XML et ce que permet la TEI. II faut cependant souligner une importante 
difference : 

XML (qui apres SGML est l’outil de balisage structurel, referentiel et 
semantique par excellence) ne peut fonctionner comme un moyen d’echange 
semantique que si les partenaires de ce rdseau d’dchange partagent la mgme 
semantique des balises. Pour ce qui est des balises structurelles et r6f6rentielles 
(renvois bibliographiques par exemple) la semantique est assez largement 
commune et elle recoupe la semantique de balisage de HTML qui s’impose 
maintenant a tous. En revanche, pour ce qui est de la semantique des « balises 
semantiques », elle est, par construction, ouverte sur l’infini des possibles. 

Les balises TEI prennent des lors toute leur valeur. L’ initiative TEI fonctionne 
comme une « federation, voire une confederation » de colleges de chercheurs 
qui partagent dans chacun des colleges specialises des semantiques selon la 
logique de cette hierarchie de federations et confederations. 

Ainsi, tous les membres de la TEI partagent un noyau semantique, chaque 
discipline TEIdrama (theatre), TEIverse, etc. partage une semantique augmentee de 
la specialite ; puis, au-dela, des sous-groupes de chercheurs (etudes poetiques 
elisabethaines par exemple) peuvent definir leurs propres jeux de balises. Ce sont 
des dialectes, en quelque sorte, sauf que toutes ces sous-semantiques peuvent 
parfaitement etre integrees dans un meme univers semantique parfaitement 
coherent et interoperable dans son ensemble. 
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Les fondateurs de la TEI posaient comme hypothese majeure qu’il etait possible 
d utiliser la demarche de structuration par balisage pour analyser des textes et 
noter de fa^on normalisee les elements decrits par ce balisage. Ce balisage 
s’organise selon deux types d’elements : 

le noyau : (ce sont des balises et des Aments communs k toutes disciplines). 
Par exemple, la structure en divisions et paragraphes, la description 
documentaire du contenu, etc. 

les balises et elements propres a des disciplines qui permettent de travailler sur 
la prose, la parole, le theatre, lapoesie, les dictionnaires, l’histoire... 

Fonctionnellement, le balisage TEI s’organise aussi selon deux champs 
complementaires mais distincts : 

1’en-tSte ( header ) qui constitue une codification non seulement de la source du 
document (un livre edite sur papier par exemple) mais de sa transcription 
num£rique : personne et institution, responsables de la transcription, format de 
transcription, date, mode de disponibilitS, versions et mise k jour, codification 
selon des modes de description qui peuvent etre en partie automatises pour 
transformer des donnees bibliographiques traditionnelles, etc. 

le balisage prqprement dit du document. Celui-ci peut se contenter d’etre 
relativement 16ger et strictement formel, ce qui permet d’dchanger des 
rdfSrences ou des corpus. Dans d’autres cas, la TEI peut devenir le support de 
descriptions beaucoup plus fines dans lesquelles on liera le fond et la forme du 
document (les etudes litteraires theatrales ou poetiques sont un bon exemple de 
ce type de traitement.) 


Plus techniquement il existe 3 ensembles de balises : 

Un ensemble de balises obligatoires (core tag sets) 

Cet ensemble a deux composantes: 

1. l'ensemble des elements et des attributs requis pour tous les genres de 
documents. Par consequent cet ensemble est obligatoire. 

2. un en-tete qui peut etre compare a une page de titre electronique (TEI 

header). 

Un ensemble de balises de base (base tag set) 


12 A l’dpoque le SGML et maintenant, bien sur ,le XML. 
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L*utilisateur doit ici choisir parmi les six ensembles definis qui represented autant 
de categories de textes: prose, poesie, theatre, transcription du discours 
(transcribed speech), dictionnaire et informations terminologiques. Les ensembles 
de balises de base definissent les types de documents. Par exemple, 
TEIdictionnaries est l'ensemble qui contient la declaration des elements necessaries 
au balisage d’un dictionnaire. Idealement, un seul ensemble de balises prqpres h la 
discipline est necessaire pour l'encodage d'un genre specifique 13 . 

Ensembles de balises additionneUes (additional tag sets) 

Ces balises permettent de repondre a des besoins particuliers. L'utilisation de ces 
balises est compatible avec tous les ensembles de base. C’est ici que viendrait 
s’ insurer & terme TEIberbire. 

En 1994 la TEI a publie « Les recommandations de la TEI », (TEI guidelines) dont 
elle propose une « version allegee : « la TEI lite », con^ue pour donner acces a un 
ensemble plus facile a apprehender permettant ensuite aux chercheurs de 
s’approprier plus facilement la totalite du TEI guidelines. L’ensemble de ces 
recommandations a ete traduit en franfais par Francis Role dans le n° 24 Special 
TEI des Cahiers Gutenberg (actuellement disponible en ligne) . 

3. La mise en synergie des chercheurs TEI 

Ce point est important. Q est en effet indispensable que l’amenagement d’un espace 
normalise de travail puisse etre paramdtrable par les chercheurs qui le souhaitent et 
cependant, que les normes de balisage des documents ne se multiplient pas de 
fa$on exponentielle. C’est pr6cis6ment un des objectifs primordiaux de la TEI : 
articuler k plusieurs niveaux le processus de normalisation et de consensus : cr6er 
des consensus de description s&mantique ou de structuration des documents ou des 
corpus qui soient communs k tous, puis sur ce premier dtage (proprement normatif) 
laisser chaque chercheur, cheque amenageur de fonds de documents parametrer ses 
balises quand c’est indispensable (si possible en rajoutant des attributs aux balises 
et en evitant d’en creer de nouvelles). 

Ce processus d’articulation et d’enchSssement des modules peut, et m6me doit 


^ En fait cette regie vaut plus pour 1 ’analyse prealable de constitution d’un domaine 
(definir les balises specifiques) que pour l’usage. 

14 < www.gutenberg.eu.org/publications/cahiers/50-cahiers24.html > 
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avoir plusieurs niveaux, entasses ou meme quelquefois paralleles 15 . Par contre s’il 
s’avere qu’un mode de structuration ou une nouvelle categorie semantique se 
faisait jour, il est important de concevoir une (ou des) nouvelle(s) balise(s) ou 
mode de structuration, puis de la tester experimentalement en local, mais il faut se 
garder de mettre en ligne des corpus utilisant ces nouvelles balises sans les 
soumettre pr6alablement k 1’ approbation en consensus de la communaute de la sous 
categorie TEI concem£e qui envisagera 6ventuellement d’intdgrer ces modes de 
balisage innovants dans les mises £ jour p6riodiques des Guidelines de la TEI. 
C’est cette dynamique d’am6nagement collegial d’un sous domaine de la TEI qui 
r£pond pr£cis6ment k cette double contrainte : normaliser techniquement un 
cnvironncmcnt numerique berbere et malgre tout ne pas entraver les besoins 
specifiques des chercheurs. 

La communaute TEI est maintenant riche de plus de 20 ans d’ experience 
correspondant k des mises en synergies similaires. S’associer au monde de la TEI 
c’est s’assurer aussi l’aide ou P expertise de chercheurs non-berb£rophones ayant 
d£j& eu P experience de situations patrimoniales similaires dans d’autres domaines 
et d’autres langues. 

Fort de cela, nous proposons l’instauration d’un groupe « TEI Berbere » avec un 
spectre de federation de recherche relativement large et multidisciplinaire qui 
correspondra de ce fait k des « groupes de travail TEI Berbere » correspondant k 
des difterentes t&ches: 

Mise au point urgente d’un «TEIheader» propre aux divers patrimoines 
berberes ou ayant le berbere comme objet : c’est la premiere etape d’trn travail 
permettant d’assurer une gestion de ces patrimoines en tant que bibliotheque 
numerique 

Analyse litteraire de ressources tant orales qu’ecrites (& la fois pour des 
ressources directement berberes mais aussi de la litterature scientifique dont la 
culture berbere est l’objet) : c’est l’objet premier de la TEI des sa fondation. 

Balisages multilingues : la TEI est particulierement adaptee a la structuration 
de corpus multilingues et notamment a leur alignement parallele. 


15 Par exemple dans la TEI, il exists une DTD TEIverse qui constitue un metamodele 
general pour le balisage de la poesie. Par contre a P evidence la poetique anglaise, fran9aise, 
latine ou berbere ne fonctionne pas selon les mSmes regies et structures ce qui implique que 
les communautes d’dtudcs considdrdes puissent ddcrire et baliser ces diffdrents corpus 
d’dtude en definissant communaute par co mmuna ute leurs modeies specifiques. 
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- Rassemblement coherent des ressources terminologiques : la DTD TEI 
« TEIdictionnary » et le groupe d 5 experts qui y est associe est particulierement 
adapts. Un de ses membres actifs Laurent Romary. 

- La description des caractdristiques de traits dans toutes les langues (travaux 
mends en consortium prdcisdment par l’ISO TC37 SC4 & la TEI), qui mdrite 
d’etre mis en chantier dans le cadre spdcifique d’une ou prdfdrentiellement de 
plusieurs langues berbdres. 

Notons que le point 2 demande k etre ultdrieurement subdivisd en de nombreuses 
sous-thdmatiques : TEIdramaBerbdre, TEIverseBerbdre. 

TEItranscribedSpeachBerbere 16 . . . 

II est aussi vraisemblable que les chercheurs impliques dans ces differentes sous- 
thematiques devront creer des sous-modeles plus ou moins specialises ou adaptes 
selon la langue berbere qu’ils etudient. Et cependant il est fondamental de rester 
dans une limite de granularitd raisonnable. La spdcification excessive des moddles 
TEI peut entrainer une babdlisation de la recherche. Avant de crder des infinitds de 
modes de moddlisation, il importe d’ explorer les balisages ddjd expdrimentds dans 
la communaute TEL II importe d’ explorer l’usage qui pourrait etre fait en 


16 Nous donnons ici k titre d’exemple unc partic du TEIhcadcr d’un cnregistrcmcnt oral 

dont on prdcise la source viddo d’origine 

<recordingStmt> 

<recording type="video"> 

<p>U-matic recording made by college audio-visual department staff, 
available as PAL-standard VHS transfer or sound-only casssette</p> 

</recording> 

</recordingStmt> 

<recordingStmt> 

<recording type="audio” dur= M P30M"> 

<respStmt> 

<resp>Location recording by</resp> 

<name>Sound Services Ltd.</name> 

</respStmt> 

<equipment> 

<p>Multiple close microphones mixed down to stereo Digital 
Audio Tape, standard play, 44.1 KHz sampling frequency</p> 

</equipment> 

<date>12 Jan 1987</date> 

</recording> 

</recordingStmt> 

<recordingStmt> 

<recording type^^audio” dur= ,r P15M" xml:id= n rec-3001"> 

<date>14 Feb 2001</date>. 
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reutilisant des balises congues pour d’autres langues puis de ne les caracteriser 
qu’au seul niveau d’un attribut : procedure qui permet des lors de ne pas multiplier 
a l’infini le nombre des balises des guidelines permettant ainsi que cela reste un 
environnement et un outil apprehendables et comprehensibles. 

4. La TEI et la diversity linguistique 

Citons Nguyen Thi Minh Huyen (Nguyen T. 2006) pour ce qui est precisement du 
traitement automatique des langues dans le contexte d’une langue qui n’est pas 
precisement de grande diffusion : le vietnamien. H souligne, V importance du 
consortium TEI qui s’est lui-meme associe en consortium avec 1’ISO TC37 (comite 
technique dedie a la normalisation de la terminologie et des ressources 
linguistiques) : 

« Avec la maturite de developpement des standards dans le d omains de langues 
(TEI, EAGLES/ISLE, LISA 17 ), 1’ISO a valide en aout 2002 la creation d’un sous- 
comite TC37/SC4 18 entierement dedie a la normalisation de la gestion des 
ressources linguistiques, sous la presidence de Laurent Romary. L’ISOTC37/SC4 a 
pour but de developper des principes et methodes pour la creation, l’encodage, le 
traitement et la gestion des ressources langagiEres comme des corpus Merits ou 
oraux, des lexiques, des schEmas de classification. Les centres d’intErdts sont : la 
modElisation de donnEes, le balisage, l’Echange de donnEes et P Evaluation des 
ressources langagieres (a P exception) des terminologies (traitees precedemment 
par d’autres sous-comitEs du TC 37) » . 

Nguyen Thi Minh Huyen precise notamment le role du projet MAF : 

« Le projet MAF ( Morphosyntactie Annotation Framework) de PISOTC37/SC4 a 
pour but de dEfinir un modEle gEnErique dEdiE E l'annotation morphosyntaxique 
(norme ISO-2461 1). Ce modEle combine, d’une part deux niveaux de segmentation 
et de catEgorisation linguistique (Etiquetage morphosyntaxique), et d’ autre part, un 
ensemble de categories de donnEes linguistiques permettant l’Echange et 
l’interaction de donnEes. Selon ce principe, les informations linguistiques (comme 

Le groupe de travail LISA/OSCAR a propose des standards concemant, par exemple, 
P6change de donnEes de m6moire de traduction (TMX - Translation Memory exchange), 
Techange de donnees terminologiques (TBX - TermBase eXchange). 

18 Le site officiel de ce sous-comit6 se trouve au http://www.tc37sc4.org. Les documents de 
travail sont mis sur le site au fur et k mesure des activity du comity 
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les parties du discours, les traits morphologiques, etc.) de chaque annotation 
conforme au MAF doivent pouvoir etre mises en correspondance avec les 
categories de donnees defmies. » 

5. Les caracteristiques des documents en langue amazighe 
et/ou traitant de la culture ou des langues berberes : 

II s’agit not amment de ce qui est d6fmi dans les axes de ce 4 Amfi workshop de 
1’IRCAM. Evidemment, les axes proposes ne font pas le catalogue exhaustif des 
specificites de la numerisation linguistique berbere (on ne peut sans cesse revenir 
sur les axes proposes dans les precedents workshops, ni meme reprendre a 
l’identique les thematiques d’autres acteurs de la recherche berbere comme le 
CNPLET). Je commencerai par resumer de mon point de vue, les caracteristiques 
de ces ressources de documents ainsi que les objets de recherche (voire de 
pratiques 19 ) qui me semblent correspondre aux objectifs de traitement 
correspondant aux diff&rents usages qui peuvent Stre faits de ces ressources. 

Les corpus berberes se caracterisent par leur aspect multimedia. On ne peut ignorer 
qu’une culture largement de tradition orale existe aujourd’hui, non seulement a 
travers des textes produits par des lettres berberes, mais aussi des transcriptions 
realisees par des ethnologues ou des linguistes. De nos jours, notamment grace aux 
efforts d’alphab£tisation en langue berbere, ces ressources linguistiques 
s’augmentent chaque annee consid6rablement de par la production des joumalistes, 
des pedagogues, des professionnels de la television ou de la radio, des chanteurs 
aussi, qui par leur production discographique constituent une partie considerable du 
corpus linguistique berbere modeme. 

On l’a souvent souligne, les ressources linguistiques berberes existent sous trois 
traditions d’ecriture : les tifinagh largement popularises notamment au Maroc par 
1’ effort specifique de 1’IRCAM, l’ecriture arabe amenagee avec quelques caractdres 
suppiementaires et l’ecriture latine, elle aussi amenagee avec quelques signes 
diacritiques et d’accentuation. Gr&ce k la normalisation reatisee par l’ISO et 


19 On ne doit pas negliger que des communautes de producteurs ou d’utilisateurs de 
documents ne sont pas obligatoirement des chercheurs (ce peut etre des cineastes, des 
chanteurs, des enseignants de n’importe quelle discipline). Cependant, on doit admettre 
qu’ils interagissent tout autant que les chercheurs sur le (ou les) syst£me(s) d’information 
li6(s) aux ressources berberes. 
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Unicode, sous l’initiative de l’IRCAM, cette diversity d’ecriture a cesse d’etre un 
handficap. Globalement, il est possible d’un clic de souris de passer de l’une a 
r autre de ces formes d’ecriture. 

II est par contre plus complexe de prendre en compte la diversity des differentes 
langues et diff6rents parlers berb&res. Couvrant un imense territoire sur une trSs 
longue p£riode historique, les difF6rentes ressources linguistiques berbdres 
appartiennent & une famille de langues quelquefois non intercompr6hensibles entre 
elles. 

Cette diversity des types de ressources et de lews versus de langue ou d’ecriture, 
ainsi que la diversity des genres et types de medias deja propres a tout corpus 
linguistique, imposent une riguew de r6fdrencement lors de la wise en ressources 
num6riques. 

6. La necessity de creer un header TEIberbere 

Le Header TEI se divise en quatre sous-ensembles: 

1. <fileDesc> file description : description bibliographique du fichier 

glectronique XML-TEI (donnges utiles k 1’ indexation et au catalogage). 

2. <encodingDesc> encoding description', description du projet et des choix 

editoriaux d’encodage de la sowce (normalisation, corrections, traitement 
des fins de ligne, interventions 6ditoriales, etc.) 

3. <profileDesc> text-profile description: la description des aspects non 

bibliographiques du texte (circonstances de la composition de la source, 
langue, sujet). 

4. <revisionDesc> revision description: lliistorique des revisions du fichier 

61ectronique. 

Du point de vue de ^organisation numdrique des ressources berb^res, il est 
fondamental de disposer d’un header universel k mSme de pouvoir d6finir pour 
chaque document (ou sous ensemble de document) 1’ ensemble des diff&rentes 
caracteristiques. Si je preconise un header TEI, c’est parce que je pense que des 
cette etape la maitrise et le parametrage des documents ne sont pas seulement des 
taches strictement techniques, mais doivent etre le resultat du travail concerte des 
differentes communautes de chercheurs et utilisatews. Certes avec l’aide 
indispensable de professionnels de l’informatique, mais aussi en sachant definir 
lews propres besoins, tous les utilisateurs concemes devront pouvoir donner les 
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grandes caracteristiques des documents. : De quel document ou media s’agit-il ? 
Quel est son genre 20 ? quel est sa langue ou son parler ? Son ecriture ? Est-ce un 
document original ou une transcription? qui est responsable de ce document 
(auteur, editeur, traducteur, transcripteur, commentateur. . .) ? Quel est l’auteur, la 
date, l’6diteur du document source ? Celle du document numdrique (voire de ses 
differentes versions) ? 

D6s cet 6tage du systgme d* information, on se rend compte qu’il faut pouvoir 
recueillir les differents desiderata des chercheurs et utilisateurs des ressources 
berberes, en faire la liste exhaustive et pouvoir ainsi disposer d’un etiquetage 
general des documents permettant de savoir quels types de traitements pourront 
etre invoques en fonction du type et genre de document et du type d’usages ou de 
recherches dont il relevera. A 1* evidence une transcription petrographique ne sera 
pas traitee de la meme fa<?on que la transcription de temoignages oraux, des 
ressources p6dagogiques d’alphab&isation, la num6risation d’un disque produit par 
un chanteur professionnel actuel... La mise au point d’un header TEIberbdre ne 
pourra Stre r6alis6e qu’& Tissue d’une concertation entre des chercheurs et l’6quipe 
porteuse du projet. 

7. La definition de diffdrentes communaut£s d’utilisateurs- 
chercheurs et des sous ensembles de balises TEIberbere 
qui leur sont specifiques 

En ddfinissant ses diffdrentes th^matiques, l’appel k communication du 4£ 
workshop montre bien les diffdrentes families de traitement ndcessaires pour le 
traitement automatique des langues. Pour les grandes langues scientifiques ou 
industrielles, ce n’est que grace it une mobilisation considerable de recherche 
d£veloppement en ingenierie linguistique qu’elles peuvent disposer aujourd’hui 
d’un environnement TAL. II est de ce fait indispensable de proceder a une 
mobilisation «reellement collaborative et en ligne », de Tintelligence d’ingenerie 
linguistique permettant de resoudre puis de developper l’environnement TAL 
specifique aux differentes langues de la famille berbere. Le probleme n’est done 
pas seulement de faire les bons choix techniques et normatifs, mais de les mettre a 
disposition d’un college elargi de chercheurs linguistes et ingenieurs du langage a 


20 Texte manuscrit ou 6dit6, disque, Emission radio ou TV, transcription orale, transcription 
petrographique, edition d’un 6crit savant traitant de la langue ou de la culture, partition et 
paroles de chant 
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meme de creer un niveau d’environnement TAL berbere operationnel. Cela 
n6cessitera des arbitages permettant de definir des degres d'urgence et de priorites 
ddbouchant obligatoirement sur des choix de developpement prMSrentiels. 

Les pr6c6dents workshops de 1’ IRC AM ou des rencontres au CNPLET s’6taient 
mobilises sur des axes thdmatiques qui correspondent aussi k des modes de 
structuration, de traitement ou d’analyse des ressources qui correspondent k des 
modes de balisages d^finis ou potentiellement descriptibles dans les guidelines de 
la TEI et ses grandes applications traditionnelles : 

L’ analyse structurale et semantique des textes 

” L’e-leaming 

La terminologie et la lexicographic 
La standardisation des langues berberes 

La realisation de bibliotheques numeriques berberes (ou au minimum franco- 
arabo-berb£re) 

8. Creer un groupe TEIberbere 

La decision de creer un tel groupe TEIberbere a T occasion du 4 atelier 
International sur l'amazighe et les TICs aurait, selon moi, plusieurs effets ties 
strategiques. 

La TEI est sans doute un des groupes « d 5 Intelligence collective numerique » 
les plus anciens , les plus perennes, et a ce jour ties productif. Fonder une 
communaute TEIberbere aurait un effet d’ emulation interne des chercheurs ties 
benefique, mais aurait de plus l’avantage d’ exciter l’interet de nombreux 
chercheurs non berberophones appartenant a d’auties colleges disciplinaires de 
la TEI : construction des terminologies et dictionnaires, pratiques d’analyses 
litteraires ou d’analyse de corpus oraux, analyse de corpus bilingues, 
description des traits linguistiques, etc. . . 

Fonder un groupe de TEIberbere aurait aussi comme avantage de tier en une 
demarche unique la creation du « college international des chercheurs en 
culture amazighe » et la mise en chantier d’un sous-ensemble de guidelines 


21 Le consortium TEI a ete cree en 987 par trois societes savantes : T Association for 
computers and the Humanities, 1’ Association for computational Linguistics, 1’ Association 
for Literary and Linguistic Computing. A 1'heure actuelle, elle est structuree sous la forme 
d’un « TEI Consortium » qui est une institution sans but lucratif 
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specifiques 4 cette recherche. C’est en cela d’ailleurs que reside ce qui fait le 
succes de la communaute TEI : mettre en synergie d’une part de la 
communication sociale et d’autre part le chantier des « Guidelines 
TEIberb£re » c’est-4-dire un lieu de ressources partag6es, normalis6es, 
interop6rables permettant de formaliser sous forme numdrique des mdthodes et 
des savoir-faire indispensables pour la construction et 1’ exploitation de 
ressources langagi&res en berb&re et & propos des langues berbdres. 

Sur chacun de ces deux demiers points, il y a un chantier de socialisation (tant 
prdsentiel que distant), un chantier linguistique et un chantier informatique 4 
ouvrir. II y a aussi (et surtout) un vaste chantier de formalisation et d’ajustement 
normatif des methodes pour qu’elles puissent Stre repdrdes, puis formalisdes dans 
des Guidelines TEIberbere : 

a) Le chantier de socialisation est avant tout un travail de mise en college 
relationnel (mais aussi hierarchique ou par speciality de metiers ou disciplines 
scientifiques) des participants de « TEIberbere ». II existe un assez grand 
nombre d’outils & meme de formaliser le fonctionnement participatif cependant 
il est ndcessaire d’animer la mise en place du groupe (au debut en utilisant un 
forum de discussion dedie) puis en parametrant un outil pour rendre visible les 
groupes et sous groupes, notifier les hierarchies de participation scientifique, 
autoriser la creation de nouvelles balises, echanger des corpus, etc. . . La TEI 
dispose d’une grande experience en la matiere et le groupe TEI francophone 
(auquel je suis associe) pourrait tr^s judicieusement accueillir TEIberbere. 

b) Le chantier des Guidelines TEIberbere est un travail utile et urgent mais d61icat 
et de longue haleine. Il ne s’agira pas de proposer la creation anarchique et trop 
prohfique de balises specifiques a notre sujet. Il faudra dans chacun des 
champs d’interventions proposes (analyse litteraire ou de corpus oraux, corpus 
multilingues, corpus terminologiques, description des traits linguistiques, et 
d’autres champs e definir) contrdler la reelle necessite de creation de nouvelles 
balises, mettre en place des sous-comites 4 meme de proposer des procedures 
pour creer des consensus, eviter les doublons, proposer la federation d’lme 
famille de balises sous une seule balise deja existante ou a creer avec des 
attributs multiples correspondent aux differents besoins specifiques des 
chercheurs, etc. . . 


22 En parametrant des mdcanismes mimdriques formalisant le mode de fonctionnement du 
groupe humain des chercheurs (mais aussi des utilisateurs de ces recherches) 
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9. Quelle serait l’utilit£ de la TEI dans un tel contexte ? 

Nous insistons sur la TEI (Text Encoding Initiative ) car sa diffusion dans le milieu 
specialise des « humanities numeriques » (Digital Humanities) est en phase 
d’expansion. Un etablisement comme l’Ecole des Chartes & Paris en fait 
maintenant un des axes primordiaux de l’enseignement du corps des archivistes 
frantjais (qui foumit les hauts cadres des musees, des bibliotheques et des archives. 
Le monde anglo-saxon et germanophone s’ est depuis assez longtemps approprie ce 
standard de traitement des ressouices numeriques. 

On a vu aussi que c’6tait devenu le cadre de halisage normatif de la recherche 
d6veloppement en TAL. 

Dans tous les domaines de la recherche linguistique et litteraire de nombreux 
auteurs ont deja insiste sur la diversite des publics que doit viser une politique de 
creation de ressources numeriques : transformer une bibliotheque traditionnelle en 
bibliotheque num6rique virtuelle implique des investissements et des depenses de 
fonctionnement qui doivent €tre compens6s par une valeur ajout6e des usages 
patrimoniaux ; en d’autres termes il est indispensable d’imaginer, puis d’amenager 
des nouvelles a facettes d’usages multi-specialises ciblees sur des publics 
nouveaux, intemationaux, multilingues et multidisciplinaires.. Encore faut-il 
qu’une typologie de ces usages soit soigneusement reperee, etudiee, techniquement 
developpee, puis culturellement et economiquement argumentee. Ce redeploiement 
theorique et social des usages necessite bien sur une ouverture des esprits chez les 
bibliothecaires et les documentalistes impliques dans la gestion ou 1’ etude 
scientifique des ressources berb£res, qui sont quelquefois tr£s enracin6s dans une 
seule des facettes d’usage, notamment celle tr^s 16gitime d’un usage 
prioritairement cibl6 sur des usages p^dagogiques, et des usages qui faciliteront 
l’accds h un public arabophone ou francophone alors qu’un public trgs international 
pourrait dans certains cas Stre trds interress^ par des ressources berb£res. 

Cependant, la numerisation et la mise sur reseaux se rentabilise d’autant mieux que 
les usages ont ete adaptes a la mondialisation reelle (multilinguisme, prise en 
compte du public international de la recherche berbere, attention soigneuse aux 
questions d’interoperabilite et de normalisation notamment pour les jeux de 
m6tadonn6es attach6es aux ressources, normes de codages des 6critures). Ces 
questions de mondialisation des ressources numeriques berb^res sont souvent trds 
techniques et heurtent bien legitimement les aspirations naturelles des « militants 
de la communication berbere » qui comprennent mal pourquoi ils devraient 
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consacrer de l’energie a ces enjeux qui leur semblent un detour inutile pour 
parvenir a leurs objectifs propres. 

En revanche, ces memes militants comprennent bien l’utilitd 6vidente de disposer, 
sur le Net, en franqais (voire en anglais), de ressources documentaires leur 
permettant de reperer les recherches berberes entreprises partout dans le monde et 
pas settlement dans le p6rim6tre naturel arabophone, francophone et hispanophone. 
En revanche, ils n’imaginent pas toujours que cet univers documentaire est, par 
construction, collaboratif et done qu’il implique obligatoirement des reciprocites. 
La richesse du Web dans une discipline pardculiere n’existe qu’autant que les 
specialistes concemes alimentent eux-memes le reseau avec leurs donnees propres 
en direction des autres communautes linguistiques. Cet gchange inter communautes 
linguistiques s’applique aussi a d’ autres facettes de rechange : par exemple en 
direction d’autres poles de synergie disciplinaire ou metiers (des musees 2 ,des 
m&iiathSques 24 , des institutions d6di6es k la p6dagogie 25 , k la literature de 
jeunesse 26 , des centres de recherche en ethnologie, en musicologie, etc. . . . 


Par exemple an Musee de FHomme et d’Histoire naturelle (Museo de la Naturaleza y el 
Hombre) de Santa Cruz de Tenerife il existe des Momies Guanches. Les ressources d’une 
Bibliofh£que num6rique berb£re auraient toute l£gitimit£ k etre interrogeable soit par des 
chercheurs specialises, mais pourquoi pas par des visiteurs curieux d’en savoir plus sur 
cette civilisation berb£re. 

OA. 

La chanson berbere et la television berbere constituent une masse importante de 
documents qui existent deja de toute fagon dans de nombreuses mediatheques grand public, 
voire des archives specialises (phonotheques, cinematheques) qui dans certains cas 
(Inath£que de France) ont d£j& entrepris une num6risation syst£matique de tout ce qui est 
diffuse sur le territoire au titre du Depot legal. L’echange entre les chercheurs 
berberophones et les conservateurs du Depot legal est ici evident : donner une grande 
valeur ajout6e k des ressources qui ne sont que balis£es au niveau catalo graphique et 
disposer d’une num6risation syst6matique hors de port£e des 6tudes berberes. Voir sur ce 
point particulier la contribution de Sabine Loupien, (Loupien S. 2010) . 

25 Dans le cadre du projet de Bibliotheque Numerique Franco-berbere soutenu par 
F Organisation Internationale de la francophonie (Fonds Francophone des Inforoutes) des 
ateliers tres specifiques de pedagogie traditionnelle par les femmes en territoire touareg 
sont programmes et ils donneront bien sur des ressources num£riques pddagogiques. Dans 
le meme projet ainsi que le projet de Bibliotheque Numdrique Berbere (Ouhami Ould 
Braham et V Alliance Cartago, dont le projet est soutenu par la R£gion lie de France), seront 


102 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Cette situation n’est pas exceptionnelle et elle est bien connue des specialistes des 
reseaux : le propre des reseaux est que la mutualisation mondiale (ou meme 
nationale ou europeenne) des ressources ne pent pas fonctionner de fa^on 
unilaterale. 

Cette question de la mise en dynamique intemationale et interdisciplinaire des 
ressources num^riques est une question tr&s universelle de la mondialisation 
num^rique. La r6ussite de ces projets n’est 6vidente pour aucun secteur k 
1’ exception de quelques domaines a haute valeur securitaire ou economique, ce qui 
n’est pas vraiment le cas du patrimoine berbere. 

10. Cr£er une TEIberb&re serait avantageux pour la 
communaut£ de la recherche berb&re 

Cela n’a rien d’une utopie. La communaut6 que constitue « l’initiative TEI » a 
totalement integre XML dans des outils conformes aux « TEI guidelines » et on 
voit emerger de nouvelles generations d’outils permettant le parametrage d’un 
modele (c'est-a-dire. la mise en place d’un ensemble structure de balises) dans un 
contexte XML. La co mm unautd TEI, propose ainsi « TEI Pizza Chief », un outil 
disponible en ligne et qui permet precisement de creer des DTD TEI adaptes a 
1’ etude de tel ou tel corpus d’ etude. 

27 

La constitution d une DTD est evidemment une operation exigeant un minimum 
de culture g6n6rale informatique (ou plutot multimedia ; pas plus, en fait, que la 


dgalement pr6vues des Annales numdriques du Baccalaurdat Berbere en France (Animation 
de la recherche pedagogique Hocine Sadi.) 

Dans le cadre dn projet de Bibliotheque Numerique Franco-berbere sera developpe un 
volet important sur P etude des contes berberes. Ces recherches animees par Janine 
Despinette et Tassadit Yacine seront directement relaydes par le CIELJ (Centre 
International d’ Etude de la Literature de Jeunesse) et Ricochet (serveur specialise en 
litt6rature de jeunesse) k PISJM (Inst ait suisse jeunesse et m6dia). 

La Document Type Definition (DTD), ou Definition de Type de Document, est un 
document permettant de decrire un modele de document ou ' Une DTD est la 

definition dime SLG (structure logiaue generiaueL Puisqu’elle definit une SLG, une DTD 
determine directement les contenus possibles pour un type de documents. Elle doit done 
etre 61abor6e avee le plus grand soin, et il existe plusieurs methodologies, plus ou moms 
formelles, pour concevoir une DTD pour un type de documents donn£. 
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maitrise de la fabrication d’un site Internet). Cependant, il est important de bien 
considerer qu’une telle demarche de creation d’un modele TEIberbere ne saurait se 
realiser sans la mobilisation des chercheurs en vue de construire avec eux les 
modeles de balises. Cette demarche d’analyse est strictement conceptuelle. Elle 
restera exclusivement centr6e sur la definition des modalitSs fondamentales de la 
recherche linguistique et culturelle amazighe. 

Ce travail de modeiisation doit avoir potir objectif de concevoir un ensemble 
specifique de balises organisees dans ce que les informaticiens appellent un schema 
XML (ou DTD) et que le monde de la TEI qualifiers, une fois fait, de TEIberbere. 
Pour cela, il s’agit de recueillir aupres d’un ensemble representatif de chercheurs 
les fonctions d’analyse savante, de pose de signets virtuels, de determination de 
references, de pose de notes ou de gloses. Il ne s’agit pas de « martyriser les 
chercheurs traditionnels » pour les obliger k rentrer dans une demarche 
informatique, bien au contraire. fividemment il serait opportun de disposer de 
quelques jeunes chercheurs, d’informaticiens et d’ing£nieurs en industrie 
linguistique. La finality de cette moduli sation sera de comprendre, puis 
d’instrumentaliser en systeme numerique TEI, ce que font concretement les 
chercheurs quand ils mettent en fiches, glosent et posent des signets dans des 
documents (un livre materiel reel), soit sur des oeuvres ou des corpus plus globaux 
(musicologie, litterature orale, mass media berberes, ressources pedagogjques). 

Ce travail de repdrage des probl6matiques concretes de recherche une fois r6alis6, 
il s’agit d&s lors de les formaliser, de les grouper et d’61aborer en consensus un 
module numerique qui constituera la nouvelle DTD de la TEI : TEIberbere. 

Pour finaliser un tel projet, il est fondamental de modeliser les structures, les 
references et les zones que le chercheur veut qualifier au niveau semantique. 11 est 
aussi ties important, en faisant ce travail d’analyse fonctionnelle, de s’assurer que 
ces nouveaux « projets de balises » concement strictement la recherche berb&re ne 
peuvent pas etre r6cuper£s (voire adaptes a l’aide d’attributs) dans d’autres 
domaines voisins de recherches (par exemple, comme on le soulignait, le TAL 
vietnamien, la normalisation des ressources linguistiques et de la terminologie, les 
etudes litt£raires et les « humanitds numgriques ». Rappelons-nous, en effet, que 
par construction, le balisage de la TEI associe le noyau commun a des jeux de 
balises additionnelles, si possible complementaires les unes des autres. 


28 La TEI de base qui r£pond aux besoins des chercheurs en litterature ou de tout autre 
personne qui voudrait traiter des grands corpus de textes. 
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11. Pour amorcer un projet TEIberbere 

Meme si la c ommuni cation proposee pour ce 4* Workshop n’est pas aussi course et 
aussi peu technique qu’on l’aurait voulue a rorigine, sa presentation en seance 
sera aussi breve que possible (la moitie du temps qui me sera imparti). 

Par contre un espace de questions et 6ventuellement de mobilisation des chercheurs 
dans une telle demarche pour cr6er TEIberbere devrait occuper les quelques 10 k 
IS mn laiss6es libres du fait de la bri£vet6 de 1’ expose de ce projet. 

Cette demarche est, me semble-t-il, particulierement approprise au genre 
« workshop » plutot qu’a la demarche « colloque ». 
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Annexe 1 : A quoi ressemble un document TEI ? 

Nota : La plupart des balises sont 6crites en « 6criture chameau » : le d£but de la 
balise est ecrit en minu scule (c’est la tete moins haute que les bosses), puis tous les 

mots abreges qui suivent sont ecrits sans espace blanc avec une majuscule initiale. 
<!DOCTYPE tei [ <!ENTCTY TEI.prose "INCLUDE">]> 

<tei> 

<teiHeader> 

<fileDesc> 

<titleStmt> 

<title>Le plus petit document conforme k la TEI</title> 

</titleStmt> 

<publicationStmt> 

<p>Ce document n'est pas publi6.<7p> 

</publicationStmt> 

<sourceDesc> 

<p> Ce document est original.</p> 

</sourceDesc> 

</fileDesc> 

</teiHeader> 

<text> 

<body> 

<p>Voici le document conforme a la TEI le plus court qu'on puisse 
imaginer. 

</p> 

</body> 

</text> 

</tei> 
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Annexe 2 : L'en-tete de la TEI (TEI header) 

La description catalographique des documents num6ris6s est un aspect qui a 
6tudie en profondeur par un comity de la TEI. L'int6ret que suscite l'en-tete de la 
TEI d'un point de vue biblioth6conomique est certain. Tout en innovant, les 
solutions proposes sliarmonisent avec les processus ddji en place dans les 
bibliothgques. 

L’en-tete de la TEI, qui fait partie de l'ensemble de balises obligatoires, sert a 
dScrire un document balis6 pour permettre aux utilisateurs d'avoir de I'information 
sur le texte lui-meme: la (ou les) source(s), les principes utilises pour le balisage et 
llristorique des revisions et modifications apportees au texte. Ces informations sont 
ngcessaires autant pour les chercheurs qui utilisent les textes que pour les 
catalogueurs. Aucun document n'est conforme k la TEI s'il ne comporte pas la 
balise <teiHeader>. 

Les 4 parties du TEI header 

Les quatre parties de cet en-tSte sont: 

1- <fileDesc> peut etre vu comme l'equivalent de la page titre d'un document 
papier. II est difficile d'imagjner un document sans page titre, de la meme faqon 
l'element <fileDesc> est le seul qui soit obligatoire pour la <teiHeader>. La 
flexibilite offerte par l'architecture de la TEI permet la description d'un texte en 
respectant la norme biblioth6conomique RCAA2. 

2- L'616ment <encodingDesc> d6crit la relation entre le texte encode et sa (ou ses) 
source(s). II peut contenir, par exemple, de I'information sur le projet dans lequel 
s'inscrit l'encodage de ce texte ou des details sur les decisions editoriales qui ont ete 
prises. 

3- L'616ment optionnel <profileDesO permet de donner une description d6taill6e 
de ce qui caractfrise les aspects non-bibliographiques du texte, telle la langue 
d*usage, la situation dans laquelle le texte a 6t£ produit, le nom des participants et 
leur role. La classification et les descripteurs assigngs au texte font 6galement 
partie de cet element. 

4- <revisionDesO permet la description de lliistorique des changements apportes 
au texte. 
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Annexe 3 : Quelques projets TEI dans le monde 
Women Writers Project 

Ce projet a d£but6 en 1989 & lUniversite Brown. L'objectif est de constituer une 
base de donn£es avec accds au plein texte de la literature 6crite par des femmes en 
anglais pour la periode de 1330 a 1830. 

Center for Electronic Texts in the Humanities (CETH1 

Mis sur pied conjointement par lUniversit6 de Princeton et lUniversit6 Rutgers en 
1991, le CETH a pour objectif de promouvoir le developpement, la diffusion et 
l'utilisation des textes electroniques en sciences humaines. 

The Oxford Text Archive IOTA! 

Gere par les Oxford University Computing Services, l'OTA rend disponible plus de 
1500 titres. Son site comprend des textes electroniques de plusieurs auteurs 
importants en grec, en latin, en anglais et en une douzaine d'autres langues. 

American Verse Project 

II s'agit d’une nouvelle source de textes conformes a la TEI annoncee le 18 
decembre 1995. Cette nouvelle initiative vient de Humanities Text Initiative de 
lUniversite du Michigan et constituera une collection de textes de la poesie 
americaine. 

• Electronic Text Center - University of Virginia Library (ETC) 

Le ETC numerise et collecte depuis septembre 1992 des textes dans le but de les 
rendre disponibles par son service de textes en-ligne. Le Centre met egalement a la 
disposition de la communaute de lUniversite de Virginie l'equipement 
informatique et les logiciels permettant l'analyse des textes tout en foumissant la 
formation ndcessaire aux chercheurs pour l'utilisation de ces nouveaux outils. 

Silfide Loria fNancvl 

Silfide (Serveur Interactif pom - la Langue Frangaise, son Identite, 
sa Diffusion et son Etude); heberge au LORIA Silfide recense tous les projets 
francophones utilisant la TEI 29 


29 http://www.loria.fr/projets/Silfide/Index.html 
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Le pro jet DictAm 

Dictionnaire electronique des verbes amazighe- 

fran^ais 

Samira MOUKRIM 

Laboratoire Ligfrien de Linguistique-Universit6 d’ Orleans 

samiramoukrim@yahoo. fr 


1. Introduction 


Dans le cadre de la promotion de la diversite linguistique dans la societe de la 
connaissance, nous nous proposons d’elaborer un dictionnaire electronique des 
verbes amazighe-fran$ais (DictAm). Ce dictio nnai re vise a rendre compte de 
l’ensemble des verbes dans le domaine berbere : conjugaison, diathdse et sens. Le 
DictAm a egalement une visee comparative dans la mesure ou il rassemble et rend 
accessible les materiaux lexicaux des differentes varietes dialec tales. 


Le present article a pour objectif de presenter le DictAm (Dictionnaire 
Electronique Amazigh), un projet & travers lequel nous entendons produire une 
nouvelle ressource linguistique susceptible d’intggrer le berbdre dans les nouvelles 
technologies de rinformation. 


2. Motivations 

La langue berbere est parl6e dans plusieurs pays d’Afnque (Maroc, AlgSrie, 
Tunisie, Lybie, Egypte, Mauritanie, Mali et Niger). Elle est partout minoritaire et 
diversiftee en de nombreuses vari6t£s dialectales. Cette langue est aussi pratiqu6e 
au sein de l’Union Europeenne (France, Allemagne, Pays Bas, Belgique, Italie, 
Espagne). 

Pour diverses raisons socio-bistoriques et politiques, le berbere a connu un grand 
retard de la recherche linguistique. Le lexique reste le maillon faible des Etudes 
berb6res. Les outils lexicographiques disponibles semblent limits car disperses et 
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les travaux existants sont partiels et ne concement qu’un seul parler (ou dialecte). 
C’est la raison pour laquelle nous proposons un support unique a l’essentiel de 
r information lexicale verbale berbere. 

Comme beaucoup d’autres langues africaines, le berbdre n’a gu&re bdndficid des 
avancdes de l’informatique : un dictionnaire sous format dlectronique est trds 
attendu. Par ailleurs, l’apprentissage du fran<jais par des berbdrophones ndcessite le 
ddveloppement d’outils didactiques qui prennent en consideration leur langue 
matemelle. Le dictionnaire propose peut etre integre egalement dans une 
perspective de didactique du berbere a des francophones. 


3. Genese du projet DictAm 

L’idee du dictionnaire electronique des verbes berberes est nee lorsque nous 
avons voulu evaluer le degre de variation au sein des verbes communs d’un 
certain nombre de parlers berberes 1 . Au debut, nous avons utilise des fiches 
(papier) pour classer les verbes collectes. Ce qui devenait de moins en 
moms pratique au fur et a me sure que le nombre de verbes et de parlers 
augmente. 

Cela nous a pousse a reflechir a la conception d’une base de donnees qui 
pourrait nous faciliter F organisation de Finformation et dans le meme temps 
nous permettre de visualiser les convergences et divergences entre les 
parlers berberes etudies. 

4. Conception du DictAm 

41. Methodologie 

Lors de 1’elaboTation du DictAm, nous nous sommes interrogee, d’une part, 
sur la demarche k suivre pour la structuration des donndes, et d’autre part, 
sur le traitement de la diversity linguistique. 

En ce qui conceme la structuration des donnees, les verbes sont classes par 
ordre alphabetique de leur forme aoriste-imperatif afm de faciliter la 


1 C’dtait en 2003-2004, aprds rinstitutionnalisation de l‘amazighe au Maroc et le ddbut de 
sa standardisation. 
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consultation. Nous avons opte pour ce type de classement et non pour le 
classement par racine pour les raisons suivantes : 

- Le DictAm s’adresse aussi bien aux usagers avertis qu’aux non- 
avertis (i.e. qui n’ont pas acquis les structures morphologiques 
elementaires du berbere) ; 

- Du point de vue de l’usage, il est plus aise de chercher un mot en se 
referant a sa lettre in itiale que d’en degager la racine ; 

- Le classement par racine presente un certain nombre de problemes, 
en particulier lorsque celle-ci a subi des modifications au point de 
devenir meconnaissable 2 . 

La dimension bilingue du DictAm se manifeste au travers de l’association 
pour chaque entee lexicale berbere d’un equivalent en langue franpaise. Par 
ailleurs, la structuration et le format des donn6es ont 6t6 pens6s de manure k 
permettre un transfert des donn6es s61ectionn6es vers un document Word ou 
Excel (et prochainement HTML). 

Quant au traitement de la diversite linguistique, le DictAm a ete conpu de 
maniere a couvrir le plus de parlers (et de dialectes) possibles et a 
centraliser toutes les donnees lexicales verbales des differentes varietes 
dialectales. La maniere dont les donnees sont prdsentdes permet de faire des 
rapprochements des diff&rents parlers/dialectes {cf. figures 3, 5 et 6). 

La structure de la base de donnees a ete determinee en prenant en compte 
toutes les caracteristiques du verbe 3 dans cette langue : 

o En berb&re, Le verbe peut etre simple ou d6riv6 (causatif, passif, 
r6ciproque, etc.) 

o Le verbe se pr£sente sous trois themes principaux : l’aoriste, 
l’inaccompli et l’accompli (auxquelles nous pouvons rajouter 
P accompli n6gatif et l’inaccompli n6gatir). 

o Les verbes sont g6n6ralement classes selon le nombre de consonnes 
radicales. On distingue plusieurs types de verbes : les verbes 


1 Cf. Taffi (1990 : VI-XV1) pour plus de details sur les diffdrentes modifications que peut 
subir la racine en berbere. 

Pour determiner la structure de la base de donnees, nous avons examine les principaux 
travaux qui ont porte sur le verbe en berbere, ce qui nous a permis de prendre en compte 
toutes les caracteristiques du verbe. 

4 Et le preterit intensif (resultatif) pour le touareg. 
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monoliteres (constitues d’une seule consonne radicale), biliteres (2 
consonnes), trilit£res (3 consonnes), quadrilit^res (4 consoones) et 
quinquiliteres (rares). 

Toutes les informations concemant le verbe se pr6sentent comme suit : 


42. Materiaux 



Figure 1 : Formulaire de saisie 

L’alimentation de la base de donnees s’est faite a partir des sources 
documentaires existantes : 

- Les dictionnaires classiques (version papier) 

- Les lexiques et glossaires (accompagnant les descriptions 
grammaticales, recueil de textes, monographies. . .) 

- Exploitation syst&matique des textes publi6s 
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Actuellemsait, le BfetAm comporte prfe de 3§00 verbet dans use 
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ctrj+Alt + t t 
cM±Alt + d — >cl 

solxantaiiie de pariers betb&es. C’est un tt&v&il qua est en oours de 
realisation et qui a pour ambition de ripertorier tons les vcrbee berbdres 
ainsi que leurc Equivalents en franc&is. 

Four la programmstiac du DictAm, nous avons fisit appel & El Amrani 
Mohammed, informaticien on Allemagne, qui nous a aid£ & cancrfitiser ce 
projet : 



de verbes Amazighes 


Diet Am 



Version : 1 .0.0.1 


Auteui Samira Moukrim 


Programme par : Mohammed E! Amrani 
Copyright 2004 - 2009 Mohammed El Amrani 


Figure 2 : h^ormaAom auteur et programmeur 
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43. Un nouveau clavier 

Pour la notation du berbere, nous avons choisi dans un premier temps la 
graphie a base latine car elle permet une large diffusion. 

Comme les claviers dont nous disposons sont faits pour les langues indo- 
europ6ennes, nous avons cr6e un nouveau clavier (DictAm_ARIAL), avec 
Microsoft Keyboard Layout Creator, qui permet d’6tablir des raccourcis, 
pour taper directement au clavier les caract£res sp6ciaux : 

Travaillant Hans une perspective de partage et de mutualisation, nous avons 
eu recours demierement aux polices Unicode, ce qui permet une large 
compatibilite avec les ordinateurs et logiciels recents. 

Nous envisageons egalement d’introduire la graphie a base tifinaghe, en 
particulier apres son integration dans le standard Unicode (/ISO 10646). 


5. Description du DictAm 

Le principal intdr&t du DictAm r6side, d’une part, dans la rapidity d’acc^s 
aux donates, et d’ autre part, dans la possibilit6 qu’il offre de rapprocher des 
donnees issues de differ entes varietes dialectales. 

Toutes les informations concemant le verbe sont saisies dans le formulaire 
presente dans la figurel ci-dessus. Dans l’interface de consultation, la 
fenetre CHERCHER permet de rdpondre k n’importe quelle requete d^s lors 
que cette interface permet de la formuler. Le fait de taper un verbe dans 
cette case permet d’acc6der automatiquement a toutes les informations le 
concemant dans une multitude de parlers berb&res, comme il apparait Hans 
la figure 3, qui pr6 sente le verbe ddu : 
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Figure 3 : le verbe ddu 

En ce qui conceme l’AFFICHAGE, nous pouvons faire un afifichage normal 
(afficher tous les verbes dans tous les parlers) ou faire un tri : 

- Afficher uniquement les verbes simples (tous les verbes simples ou 
un seul type de verbes simples : monoliteres, biliteres ou triliteres, etc.) 

- Afficher uniquement les verbes d6riv£s. . . 

- Afficher les verbes communs k deux ou plusieurs parlers afin de les 
comparer, etc. 

La fonction EXPORTER permet d’ exporter les donn6es, sous forme de texte 
ou de tableau afin de les imprimer ou les reexploiter via d’autres logiciels. 
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j+ 


Mn® 


dawa 

dd3u 

dal 

dduqi 

dfar 

<f» 

diw 

djawn 

dl2 

dis 

dbdr 



d:1z 

alar 

dhr 

diyq 

djdjfidfm 

M 

dlu 

dbr 

odj 

m 

odz2 

diic 

di 

diyy3 

ddcr 

Jk 

diul 

DR 

AAp 

L-J 

ddiftf 

df3 

dH 

did 

djaf 

d 

din 

dlu 2 



:i":1 ill 


Figure 4 : Les statistiques 

Nous avons ajoute recemment une nouvelle fonction : les 

STATISTIQUES , qui donnent un aperpu sur le nombre de verbes dans 
chaque parler, le nombre des verbes simples, le nombre des verbes derives, 
en fonction du type, etc. 


5 En construction. 
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6. Le DictAm : une visee comparative 

Comme nous l’avons mentionne plus haut, la maniere dont les donnees sont 
presentees permet de visualiser les convergences et les divergences entre les 
differentes varietes dialectales. A titre d’ illustration, soit les verbes afif et 
rar, pr6sentes respectivement dans les figures 5 et 6 (infra). Ces deux verbes 
manifestent une variation de voyelle(s) et/ ou de schdme(s) d’un parler a 
l’autre : 


Dictionaires de verbes Amazighs 


Fichier Traiter Affichage Infos 





afif 


|Parler 

Aoriste 

Accompli 

Inaccompli ] 

Zayane 

afif 

afif 

ttafif 

IdawBaakil 

afuf 

afuf 

ttafuf 

Rifain oriental 

ifif 

ifif 

ttifif 

Ai't Merghad 

ifif 

afuf 

ttifif 

Aghbalou 

afif 

afif 

ttafif 

Ait ayyache 

afif 

afif 

ttafif 

Igliwa 

afuf 

afuf 

ttafuf 

Iwrikn 

afuf 

afuf 

ttafuf 

Ouarzazat 

afuf 

afuf 

ttafuf 

Achtoukn 

afuf 

afuf 

ttafuf 

Tiznit 

afuf 

afuf 

ttafuf 

Agadir 

afuf 

afuf 

ttafuf 

Tafraout 

afuf 

afuf 

ttafuf 

Beni lznasen:Aklim 

ifif 

ifif 

ttifif 

Beni l:nasen:Tafoghalt 

ifif 

ifif 

ttifif 

Kebdana:Qaryat Arkmane 

ifif 

ifif 

ttifif 

Zemmour 

afif 

afif 

tafif 

Ait Seghrouchen 

ifif 


ttifif 

IdawSmlal 

afuf 

afuf 

ttafuf 

Idaw Tanan 

afuf 

'afuf 

ttafuf 

Idaw Zeddoud 

afuf 

afuf 

ttafuf 

Imi-n-Tanut 

afuf 

afuf 

ttafuf 


IAcc. negatif 



afif 


< 


Glose 


etre tamise 


etre tamise 

etre tamise 
tamiser 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 
etre tamise 


¥ 


emarques* 


Element : 82 / 2958 


Figure 5 : le verbe afif 
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Le verbe « afiff » se presente a l’aoriste sous trois formes : afif (Ait 
Ayyache, Zayane, Zemmour, Aghbalou : Ait Messaoud), ilif (Ait Merghad, 
Ait Seghrouchen, Beni Iznassen d’aklim, Beni Iznassen de Tafoghalt, 
Kebdana de Qauriat Arkmane), afuf (Agadir, Iwrikn, Achtoukn, Tiznit, 
Ouarzazat, Igliwa, Tafraout). Dans tous ces parlers, il y a un syncretisme 
entre l’aoriste et l’accompli k l’exception du parler de Ait Merghad ou 
l’accompli se realise afuf au lieu de iflf. Quant k l’inaccompli, il est form£, 
dans tous ces parlers, par la prefixation de tt- a l’aoriste correspondant. Si 
l’on prend la forme de l’aoriste, par exemple, qui se presente sous trois 
formes selon les parlers : 


Aoriste 

scheme 

Voyelles 

afif 

vcvc 

a-i- 

ifif 

vcvc 

a a 

1-1- 

afiif 

vcvc 

a-u- 


• Dans un processus de normalisation, quelle forme retenir ? 

Deux solutions sont envisageables : soit on prend la forme d’origine i.e. la 
plus ancienne, soit on opte pour le crit&re de la representative dialectale, en 
choisissant la forme la plus usitee par le plus grand nombre de parlers. Bien 
qu’il ne soit pas toujours facile de trouver la forme d’origine de tous les 
verbes, nous pouvons opter pour la premiere solution avec la possibilite de 
recourir a la seconde dans le cas ou la premiere s’avere impossible. 

Si l'on examine les formes ssiff, ttussiff et asiff, avec lesquelles ce verbe est 
en rapport de derivation, et qui sont respectivement sa forme factitive, sa 
forme passive et son nom d’action, nous constatons que dans la position pre- 
radicale -ou la forme verbale afi^ifif/afuf presente soit la voyelle i soit la 
voyelle a— c’est la voyelle I qui semble etre la plus ancienne. Quant a la 
voyelle intra-radicale -qui se presente sous deux formes i ou u- l’examen 
des formes ssififi afif et afifn montre que c’est la voyelle i qui pourrait etre la 
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plus ancienne. En effet, pour le verbe aiftifif/afuf, les voyelles thematiques 
de base pourraient etre i...i„ done e’est la forme ifif qui pourrait etre la plus 
ancienne. Les autres formes (afif/afuf) sont probablement le produit d’une 
evolution. 



••••• 


Dicnomm m vfmes amazighs 



iwigpy i 




I Farter 

Aonste 

Accom?!! 

[naccomplt 

Acc. rteqahl 1 lirar. iteqaSl Gtese 

Remaroues 

Ulan oneiili 

rr 

rru'a 

Terra 

reruns.: '.nmir 

l 


Iitzgane 

arr 

arra 

tarre 

Ait Altai) 

rar 

RJfB 

Kara 

A L Seghrouchen 

rr 

rri 

nrra 

Figuig 

rr 

rrVu 


Zayane 

rr 

rn'a 

ttrra 

Aghtsfcy 

rar 

rar 

ttrara 

Kabyte 

err 


ttarra 

tachefiiyt 

rar 

rar 

trra 

Ait Merghad 

rar 

rurVa 

tterara 

A* ayyaciie 

rar 

rura 

ttrara 

lg!.)va 

rar 

rar 

ttrar/ (terra 

iwrikn 

rar 

rar 

ttrar /terra 

lOjarzazat 

rar 

rar 

ttrar/ (terra 

Achtoukn 

rar 

rar 

ttrar/ flerra 

Tiznrl 

rar 

rar 

ttrar/ (terra 

Aga r 

rar 

rar 

Itrar/lterra 

Tafrac-jt 

rar 

rar 

Itrar/tterra 

Zemmowr 

rre 

rn'a 

trra 



rerdrevcmir 



rendre/ vomir 



rend r A vomir 



rendreAwmr 



rerdre-' vomir 



rendre.' vomir 



rerdre 



rendre, vomir -nerretfre a sa place, renw 



rerdre p vomir 



rer.dre. remettre. reporter, vomir, fa ire sa 



rendre, vomir 



rerdre, vomir 



rendre. vomir 



rer.dre. vomir 



rerdre, vomir 



rerdre, vomir 



rerdre, vomir 


m 

vomir, rendre 







- 



Element : 1482 / 2959 

. ; — . 1 


Figure 6 : le verbe rar 

Si pour le verbe ifif (/afif/afuf), le scheme sur lequel est construit le radical 
(veve) est le meme dans tous les parlers examines, ce n’est pas le cas du 
verbe rar/rr/arr (cf. figure 5). A l’aoriste ce verbe se presente sous trois 
formes correspondant a trois schemes diff6rents : rr (Ait Seghrouchen, 
Figuig, Zayane, Zemmour, Beni Iznassen d’aklim, Beni Iznassen de 
Tafoghalt, Kebdana de Qauriat Arkmane) / rar (Ayt Ayyache, Aghbalou : 
Ait Messaoud, Ait Merghad, Ait Attab, Agadir, Iwrikn, Achtoukn, Tiznit, 
Ouarzazat, Igliwa, Tafraout) / arr (Inzgane) : 
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Aoriste 

scheme 

Voyelle 

rr 

cc 

0 

rar 

cvc 

-a- 

arr 

vcc 

a- 


A parti r des formes d6riv£es de ce verbe : rorara , ssmrara , tturar, tararit, 
etc. nous pouvons constater que c’est la forme rar qui pourrait etre la plus 
ancienne, de meme que le scheme correspondant (cvc). 

Ainsi, le DictAm permet-il de visualiser et de rendre accessible les 
diffSrentes formes sous lesquelles peut apparaitre le verbe dans une grande 
partie de parlers berb^res. Ce qui n’est pas sans importance pour la 
standardisation de la langue. 

7. Mise k disposition et perspectives 

Au terme du projet, la disponibilite et la diffusion des donnees aupres du 
public vise (chercheurs, etudiants, etc.) seront assurees au travers d’une 
interface Web declinee dans les deux langues afin de renforcer 
1’ accessibility. II sera possible 6galement d’utiliser le DictAm dans les deux 
sens amazighe-frangais et frangais-amazighe. Une documentation simplifi£e 
visant les intemautes non avertis sera redig£e et mise en ligne afin de 
documenter la consultation des donn6es. 

Le DictAm peut etre diffuse egalement au moyen d’autres supports, papier, 
CD-rom, cle USB, etc. Ainsi, les utilisateurs pourront le consulter en ligne 
ou hors ligne pour des usages aussi divers que 1’ education de base et 
l’enseignement en general, la traduction, la comparaison des varietes 
dialectales, et toutes autres activit^s en relation avec l’apprentissage ou la 
recherche. 

Par ailleurs, il est prevu que des donnees audio viennent completer le 
dispositif et, a terme, un fichier son, soit eventuellement associe a certaines 
entrees, quand cela est possible. 
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Enfin, nous envisageons, une fois le dictionnaire des verbes stabilise, 
d’int6grer les autres unites du discours (les noms, propositions, etc.) afin de 
construire un dictionnaire general du berbOre sous format Olectronique. 

8. Conclusion 

Ainsi congu, le DictAm r6pondra a trois types de besoins : 

- Les besoins relatifs h la collecte et k l’organisation des donnOes 
lexicales issues des diffSrentes variOtOs de l’amazighe 

- Les besoins des apprenants 

- Les besoins des comparatistes et des chercheurs qui travaillent sur 
l’amazighe 

En preservant toute la richesse heritee des differentes varieties dialectales et 
en integrant l’amazighe dans les nouvelles technologies de l’information, le 
DictAm va surement contribuer h la promotion de cette langue. 
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Resume 

Ce dictionnaire bilingue offre un florilege de locutions nominales en tamazdght 
(parler du Moyen Atlas marocain) relatives a la faune et a la flore. 11 est labor ; 
dans le souci d’6claircir les difficulty des locutions figdes et d’en guider l’usage. 
Nous en tendons par locution toute suite polylexicale construite de mondmes non 
soudes formant un bloc fige inanalysable au niveau semantique. Notre 
dictionnaire se veut clair et accessible pour tous. H permet de comprendre un 
lexique specifique que les locuteurs, et notamment les jeunes generations, ont 
tendance a oublier. 

1. Introduction 

L’objectif de cet article est de presenter quelques reflexions sur l’elaboration d’un 
dictionnaire specialise illustre bilingue amazighe-frangais. Notre demarche consiste 
k arreter des rep^res mdthodologiques ddgagds lors de la constitution d’un glossaiie 
assez riche de locutions nominales et verbales annex6 k notie thdse de doctorat 
(Chakiri 2007). 

L'article est organise comme suit : Dans un premier temps, nous defmissons les 
locutions et analysons leurs criteres d’identification. Dans un second temps, nous 
presentons et analysons des exemples concrets relatifs a notre domaine 
d’exploration. 

Pour la notation des donnees amazighes, nous utilisons le protocole suivant : - 
voyelles : a, i, u et a pour noter le schwa. Semi-voyelle : w, y. Consonnes : p, b, t, 
d, k, g, l, m, n, s, z, s, z, hie notent la fricatives pharyngales sourde et sonore, xlg les 
fricatives v&aires sourde et sonore, h la spirante, q l’occlusive dorso-uvulaire, r la 
vibrante apicale. Le point sous la lettre indique l’emphase, le w en exposant note la 
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labiov61arisation, le trait sous la lettre note la spirantisation, le (tedoublement de la 
consonne indique la gemination. 

Par ailleurs, les signes et abreviations adoptes sont : A. : aoriste, EA : Etat 
d’annexion, FM : formant, loc. : locution, N : nom, V : verbe, pr6p. : proposition, 
* : renvoie au dOfigement ou & des sequences non attestees dans la langue 
amazighe, 

Les locutions en tant que suite d’unites lexicales n’aboutissent it leur forme figOe, 
integree dans le lexique et reconnue intuitivement et immediatement, en 
synchronic, comme telles, par les locuteurs de cette langue, qu’en passant par 
plusieurs etapes. En effet, a rorigine, les locutions sont des creations individuelles. 
Elies se generalised, lors des echanges verbaux et des interactions sociales, pour 
devenir ensuite, des expressions figOes, formant ainsi une nouvelle unite dont le 
sens global diftere, le plus souvent, de celui de la sequence d’origine (Chakiri 
2007, 2008). L’emergence de ces nouvelles unites composees et unifiees en un 
ensemble coherent a partir d’unites lexicales ayant par ailleurs une existence 
autonome contribue a l’enrichissement du lexique tout en repondant au principe de 
l’economie linguistique. 


3. Criteres d’identiflcation 


Parmi les nombreux criteres qui ont ete soulignes par des grammairiens et 
lexicologues pour identifier les locutions, et que nous avons test6 pour 6valuer leur 
pertinence et leur caractfere op6ratoire, nous avons retenu trois types de criteres : 
morphologique, syntaxique et s6mantique (Chakiri 2010). 

3.1. Criteres morphologiques 

3. 1.1. La polylexicalitd 

Ce critere renvoie a la presence d’une suite composee d’au moins deux monemes 
ayant, par ailleurs, une existence autonome. II constitue une condition necessaire 
pour que l’on puisse parler de locutions : poisson-chat, ddaw taytt « aisselle » (litt. 
« sous bras »). De ce fait, sont exclues, de notre champ d’investigation, les unites 
lexicales simples et les derivees. 
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3.12. Anomalie lexicale 

Ce critdre est li6 h la presence d’archai'smes, c’est- dire d’unit&s d^suetes non 
atte styes dans le lexique en tant qu’unite autonome : mamma gyula « cloporte » 
(lift. « maman l’anesse »). 

32. Criteres syntaxiques 

32.1. Non-predication 

La locution ne constitute pas une predication : 

- un fait divers *un fait qui est divers 

- agrum n tigthn « champigon » *agrum ddax n tigthn (litt. « le 

pain, celui des chevres ») 

322. Blocage des proprietes transformationnelles 

Ce critere conceme la possibility ou l’impossibilite de manipuler les constituants de 
la locution : 

- Sabun n temgarin 
savon de vieilles 

« Sortes de plantes savonneuses » 

- *win temgarin ayd iyya Sabun 

ce sctvon est aux femmes agees 

323. Blocage des paradigmes synonymiques 

Dans les syntagmes libres, on peut remplacer chaque unity lexicale par son 
synonyme. Cette liberty de substitution n’est souvent pas admise par les locutions : 

- Sabun n temgarin 
savon de vieilles 

« Sortes de plantes savonneuses » 

- *SSabun n tutmin timgarin 
savon de femmes vieilles 
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32.4. Non-insertion 

Ce entire renvoi e h la possibility ou non d’insdrer des iliments au sein de la 
locution : 

- illss funas 
langue bovin 
« buglosse » 


- * ilhs axatar funas 
langue grand bovin 

325. Portie du figement 

Ce critere permet de preciser les elements sur lesquels porte le figement : il peut 
affecter la totalite de la locution. Dans ce cas, aucun constituant n’est libre comme 
dans : 


bu njfax 
celui qui a sifflet 
« Cobra », 

e’est-a-dire que les deux constituants refusent toute modification ou 
transformation. 

33. Critdres simantiques 

Parmi les entires simantiques spicifiant les expressions figies, nous avons retenu 
les quatre suivants : 

- Uniti de forme et de sens 

- Compositionnalite vs non-compositionnalite 

- Opacite vs transparence 

- Motivation vs non-motivation 

33.1 . Uniti de forme et de sens 

Ce critire renvoie h 1’uniti simantique de la locution : nous avons d’une part 
plusieurs signifiants et d’ autre part un seul signifii. Cette dichotomie plurality vs 
unicite a mene certains linguistes a conclure que les elements constituants d’une 
locution disparaissent pour faire place a une image unique. Bien que ce critere soit 
devenu l’un des tests permettant de reconnaitre la locution, il demeure «trop 
difficile a constater, meme par introspection, pour qu’on puisse le retenir pour 
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identifier ces complexes et les opposer aux syntagmes proprement dits» 
(MARTINET 1980). En effet, des locutions vehiculant deux ou plusieurs lectures ne 
r£pondent pas & ce entire. Elies peuvent 6voquer une seule image chez les uns 
mais plus d’une image chez les autres, comme dans les exemples ci-dessous : 

mm ugrum (sa) 

1. « Poelon en terre cuite servant & cuire le pain » (s61) 

2. « Vendeuse du pain » (s62) 

3. « Femme qui a du pain » (se3) 

awzzim n ugarday (sa) 

1 . « Plantain » (se 2) 

2. « La queue du rat » (sel) 

Certes, prises hors contexte, ce type de locutions admet plusieurs signifies. 
Toutefois, en situation de communication, les locuteurs se rgfgrent g6n6ralement au 
bon signifie, notamment s'ils partagent la mcme culture car, avant tout, ces 
locutions sont le produit de toute une societe ayant ses propres normes et ses 
propres mceurs. 

332. Compositionnaliti et non-compositionnalitd ; opacity et transparence 

Une sequence est dite compositionnelle si son sens global est d£duit de la somme 
du sens de ses constituants. Dds lors, toute sequence dont le ddcodage passe, sans 
poser de problemes particuliers, par celui du sens de ses constituants est dite 
compositionnelle. A l’inverse, une sequence est dite non-compositionnelle lorsque 
le sens de chacun de ses formants n’intervient pas dans son sens global, en raison 
de l’absence de toute relation referentielle entre le signe linguistique et son 
r6f6rent. 

Ainsi, dans les deux exemples suivants, oil le premier est une locution fran$aise et 
le deuxieme une locution amazighe ( pomme de terre , ilhs funas « buglosse »), bien 
que le sens de chaque constituant soit connu, la combinaison qui en resulte ne 
permet pas l’acc^s au sens de ces deux locutions ; elles sont non- 
compositionnelles . Cette non-compositionnalit6 est li6e au ph6nom^ne de Yopaciti 
car elle en est, en quelque sorte, le rdsultat. De ce point de vue, une locution dont le 
sens est deductible de la somme du sens de ses constituants, est dite transparente. 
En revanche, une locution dont le sens ne correspond pas a la concatenation du 
sens de ses formants est dite opaque. 

333. Motivation vs arbitraire 

Sur le plan du signe linguistique, l’arbitraire est defini par l’absence de toute 
relation r6f<§rentielle entre le sens et la forme, entre le signifiant et le signifte. Mais, 
il n’en reste pas moins que dans une langue donn6e, des signes par leur forme en 
rappellent d’autres. 
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Nous avons expliqud ci-dessus le r61e que jouent les 616ments constituants dans la 
structuration du sens d’une locution. Or, pour que nous puissions decider si un 
yiyment d’une locution constitue le stimulus ou le d£clencheur d’une telle 
denomination, il faut d’abord connaitre le sens de la locution. Une fois le sens 
detecte et le referent connu, nous elections, a ce moment-la, du degre de motivation 
de la locution et de la contribution de ses 616ments constituants dans son sens 
global. Si tous les constituants y contribuent nous dirons qu’elle est motivde, 
comme dans l’exemple ci-apr^s : 

ddaw taytt 
sous bras 
« Aisselle » 

Paralldlement, si aucun yiyment n’y participe, nous dirons que la locution est non- 
motiv6e ou arbitraire. L’esprit renonce dans ces cas h toute interpretation 
analytique. Les locutions de cette cat6gorie, i-e, les non-motiv6es ou les opaques 
nous imposent de penser 1’ arbitraire non comme un allie mais c omme un ennemi. 
C’est le cas de tete de mort,pomme de terre ou encore, 

a grunt n tgtkn 
pain de chevres 

« Coprin micace » (Champignon). 

Cela etant, 1’ opacity n’est pas un crit&re suffisant car dans le cas des locutions 
transparentes, il n’est pas operatoire. En effet, bien que ces locutions soient 
transparentes, et probablement comprises d’un grand nombre de locuteurs, elles 
n’en appartiennent pas moins a la categorie des expressions figees. En se basant sur 
ce genre de locutions, des linguistes s’interessant au phenomene de figement 
relativisent l’id6e que toute expression fig£e est opaque et le consid£rent comme 
«un ph^nom^ne scalaire» allant de sequences totalement transparentes & des 
sequences totalement opaques, en passant par des sequences partiellement 
transparentes (Mejri 1997). 

Ces tests effectuds mettent en Evidence 1’ impossibility de varier tout type 
d’actualisation des 616ments constituants des locutions, que ce soit le genre ou le 
nombre, ainsi que 1’ impossibility de faire des transformations que peuvent subir les 
syntagmes libres. De ce fait, les locutions nominales expriment le plus haut degre 
de figement et relevent du figement complet. Elies constituent, « un phenomene 
compact homogene ». De tels resultats ne font que confirmer quasi a coup sur la 
conception absolue que l’on a des expressions figyes et notamment les locutions 
nominales. 
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4. Typologie sem antique des locations 

Partant des caracteristiques semantiques des locutions citees ci-dessus et 
notamment du degre d’opacite s6mantique, nous avons degage trois categories de 
locutions. 

4.1. Les locutions opaques. 

La base sous-tendant la denomination, dans cette categorie, est absente car aucun 
element de la locution ne foumit la denomination. C’est pour cette raison qu’il est 
impossible de faire appel d. la decomposition des elements pour interpreter ce type 
de locutions. Elies sont considerees comme des sequences exocentriques car 
l’eiement de base permettant l’acces a la denomination n’est pas compris dans la 
locution : 

iltes junas 

element de base = 0 

synthese semantique « buglosse » 

La denomination, dans ce type, est surtout fondee sur des motifs simples comme 
(Chakiri 2008) : 

- La couleur du referent : 

bu-gmmu « rouge-gorge », 

renvoie a la couleur du cou de l’oiseau. gmu « teindre ». 
bu hmran « rougeole », 

hmor est un emprunt a l’arabe et signifie « rouge » 

- forme et aspect 

Ici, la figuration analogique est basee sur un simple rapprochement iconique avec 
le referent. Mais, comme nous l’avons mentionne ci-dessus, pour detecter ce 
rapprochement, il faut connaitre le referent. Exemple : 

adar n ufullus 
pied de coq 
« Pourpier » 

- Activite 

Dans d’autres locutions, la denomination est basee sur le proces exprime par le 
verbe qu’elles contiennent, en general un verbe d’action. 

m nqqeb iZZuran « pic vert » (litt. Celui qui picore les racines) 
m sorm igsan « mille pattes » (litt. celui qui ligote les chevaux) 

- Effet et utilite 
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Dans cette cat6gorie, ont £t£ regroup£es les locutions qui sot ignent l’effet ou 
l’usage domestique qui est fait du referent: 

SSabun n tangarin, 

(litt. « savon des vieilles (femmes) ») 

« sorte de plantes savonneuse », 

autrefois utilisee par les fe mme s, la locution renvoie a l’usage qui est fait de 
l’objet. 

- Propri£t£s m£dicinales 

Dans ce cas c’est l’effet curatif de la plante qui est retenu : 

hdbbdtt rras 
graine t£te 

« Dauphinelle », plante utilisde pour renforcer la pousse des 

cheveux. 

- Moment de floraison 

Des saisons et des moments de la joumee servent de motif a la deno minat ion : 

ward leSar 

a 

« Sorte de fleur qui s’ouvre cn fin d’apres-midi », 

haSar renvoie au moment de la priere qui a eu lieu aux alentours de 16h. 

- Lieux d’ existence 

La denomination detient sa motivation de l’endroit ou le referent est 
localise : 

tulgad aman 
celle qui ingurgite eau 

« Sorte de plante qui pousse au bord des rivieres » 

- Matiere 

hu Hbba 

celui qui a une graine/ une balle 
« Fusil », 

dans le cas present « graine » est assimilee a « balle » par analogie de forme. 

- Enfin, dans certains cas, des denominations se fondent sur des motifs complexes, 
comme dans : 

abrrid n tagdwin 
bouc de pins 
« Hulotte », 

deux motifs sous-tendent la creation de cette locution : le lieu ou vit I’oiseau et le 
cri de la hulotte qui rappelle le bSlement des boucs. 
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Toutefois, dans les locutions totalement opaques, certaines denominations ont 
perdu toute relation referentielle avec leurs elements constituants. Le referent ne 
foumit aucune information sur la motivation de denomination. C’est le cas, par 
exemple, pour : 

mamma gyula « cloporte » (litt. « mere anesse ») 
hdbb fomluk « cerises » (litt. « grain des rois ») 

42. Locutions totalement transparentes 

Dans cette categorie, la synthese semantique est le resultat de l’addition des sens 
des composants. Autrement dit, le sens locutionnel entretient un lien tres etroit avec 
le sens de chaque element constituant la locution. Par exemple, pour hsbb ssbab, le 
sens global « acne » est deductible de hobb « grains ou boutons », et de ssbab 
«jeunesse» car « l’acne » se developpe particulierement pendant l’adolescence. 
D’autres locutions designant des parties du corps : 

ddaw tayt « aisselle », 
tigmart n ufus « coude », 

doivent leur denomination a leur position dans le corps. Les locutions de cette 
categorie sont dites endocentriques car « le signifie compositionnel est celui par 
lequel la locution fait sens » (Petit 1998). 

43. Locutions partiellement opaques 

Dites egalement « categorie composite » (Chakiri 2007) car elle est constituee des 
conglomeres dont certains composants sont semantiquement presents tandis que 
d’autres sont absents, et que la combinatoire des constituants pent foumir des 
indices permettant la lecture compositionnelle des locutions. Autrement dit, dans ce 
type de locutions, un element demeure intact et conserve la base referentielle. 
Soient ces exemples que nous avons empruntes k Benveniste : oiseau-mouche, 
chien-loup, poisson-chat. Ici seul le premier constituant foumit la denomination, la 
base semantique demeure intacte car un oiseau-mouche est un oiseau, un chien- 
loup est un chien, un poisson-chat est un poisson. Dans ce cas, c’est 1’ expansion 
qui vient perturber Panalycite de la locution. 

Dans cette categorie, la determination est, en general a gauche, c’est-a-dire qu’elle 
est foumie par le premier element. Ainsi dans, 

tabaxxut n unzar « coccinelle » (litt. « Insecte de pluie »), le premier terme servant 
en quelque sorte de pivot autour duquel se construit le sens de l’unite complexe. 
tabaxxut n unzar est ion insecte. Le deuxidme element ne fait qu’apporter quelques 
informations ou specifications liees, en general, a une certaine analogic iconique ou 
a des petits motifs, comme nous l’avons explique dans la categorie I. Ces 
denominations sont « en apparence membre [s] de deux classes distinctes qui 
pourtant ne sont ni homogenes, ni symetriques, ni meme voisines » (Benveniste 
1976). 
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5. Diction nai re des locutions : ele 


II 


ents de methodologie 


Apres avoir presente et analyse les criteres permettant 1’ identification des 
locutions, nous presentons dans ce qui suit notre methodologie. Notre objectif est 
de rendre compte du lexique de la faune et de la flore k travers un travail 
lexicographique s6rieux et illustre. Certes, il s’agit d’un lexique specialise et 
difficilement accessible pour tous les amazighisants non-initi6s, mais il n’en reste 
pas moins qu’il s’agit bel et bien d’un type de lexique amazighe int£gr£ dans la 
langue a travers ses usages. Ces expressions lexicales qui relevent du «non 
ordinaire » meritent une analyse qui foumit les outils de leur decryptage et de leur 
comprehension. 

Nous considfrons que ce dictionnaire est novateur dans le sens ou nous n’avons 
pas seulement la signification des locutions, mais nous avons tenu a ce que chaque 
locution, dans la limite du possible, soit accompagnee d’une illustration sous forme 
d’une image iconique representant le referent. Ces illustrations servent k montrer, a 
quel signifie renvoient les locutions dont l’usage est en decalage avec l’emploi dit 
« standard ». 

Precisons que ce dictionnaire n’affiche pas la pretention de definir toutes les 
locutions et comme peut le laisser entendre le titre, mais de definir le lexique le 
moins utilise et le moins connu de la jeune generation. Environ 300 locutions 
expliqu£es et illustr£es avec pour objectif central de se familiariser avec ce type de 
langage, de le pratiquer et de le comprendre linguistiquement et culturellement. 

Il nous semble egalement pertinent d’emettre quelques remarques sur la 
presentation et le traitement scientifique du lexique. En effet, le but d’un 
dictionnaire dtant d’etre fonctionnel et comprehensible en eclairant ses lecteurs, 
nous adoptons dans ce dictionnaire une demarche explicative visant 
essentiellement le cote pratique et utilitaire. Pour en faciliter la consultation et vu la 
nature de locutions traitees, nous les avons regroupees selon la classe syntaxique il 
laquelle elles appartiennent. Au sein de chaque classe syntaxique, les locutions sont 
classees par l’ordre alphabetique de leurs constituants. Six structures syntaxiques 
ont ete d6gag6es : 


1.N + N* 

bu yaezizan 
celui qui a os 
« Flamant » 


1 Nous avons £galement classd dans cette cat£gorie les locutions composes de bu + N 
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2.V + V 

bbay rul 

couper + A se sauver + A 
« Moustique » 


3. V + N 
harq sus 
bruler + A carie 
« Reglisse » 

4. m + V + N 
mftal tarfa 

fin. faire des boules + A bouse 
« Bousier » 

5. N + prdp. + N 
adil n tflgra 
raisin de serpent (EA) 

« Bryone » 

6. N + adjectif 

tifigra tahyutt 
serpent folle 
« Couleuvre » 

La transcription des cxcmplcs est conforme, au moins pour l’instant, a 
l’alphabet phonetique international. Pour la traduction des composants de 
chaque locution, nous nous sommes basee sur notre cormaissance de la langue 
en tant que locutrice native, quand cela a 6t6 n^cessaire, nous avons fait appel it 
des sp6cialistes amazighophones. Chaque locution est suivie de deux 
traductions (traduction juxtalineaire) (1) ; traduction litteraire/equivalent en 
ffan^ais (2). Chaque locution est illustree par une petite image referentielle. 
Exemple : 

illas funas 

1. langue bovin 

2. « buglosse » 
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Les termes archai'ques qui n’apparaissent que dans les locutions et qui sont 
meconnus de nos informateurs et des dictionnaires de la langue amazighe 
consults sont prEsentEs dans les traductions (1) par des pointings : 

habb rsad 

1 . grains 

2. « grains de cresson », « cresson alEnois » 


6. Conclusion 

Nous avons essays de presenter quelques points sous tendant 1’ Elaboration 
d’un dictionnaire proche de la rEalitE parce qu’il met en avant l’univers culturel 
des amazighes du Moyen Atlas marocain a travers des blocs figEs ayant pour 
corollaire la densitE symbolique et culturelle. Toute personne ne partageant pas 
ou ne maitrisant pas ce code symbolique et culturel ne peut parvenir a 
comprendre les motivations premieres ayant engendre une telle locution, ni 
faire de rapprochements entre le sens locutionnel et les sens des constituants 
pris isolEment. Notre souci majeur k travers ce travail est de permettre aux 
usagers de cette langue de partager les memes implicites socioculturels sans 
qu’il y ait de perturbation de dEcodage. 
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The paper describes the compilation of a bilingual dictionary Berber (Figuig)- 
French both in paper and in electronic version. The dictionary is root-based and 
refers to dialectal forms for comparison. The purpose of the dictionary is to 
contribute to the documentation of Figuig Berber in order to provide a linguistic 
resource for the Figuigui community and scholars interested in researching the 
Berber language. 

1. Introduction 

1J. Figuig 

The Berber variety documented in this dictionary is spoken in Figuig and belongs 
to the Zenati branch of the Berber language family. Figuig is a oasis situated in the 
South East edge of Morocco, around 1000 km from Casablanca, and 460 km from 
the Mediterranean coast. The number of permanent residents is today around IS 
000. Precise estimates of the language speakers is difficult to calculate because 
much of the population have emigrated away to Europe and to major Moroccan 
cities. The language has recently been listed in the UNESCO Adas of the world's 
endangered languages. There is no doubt that such listing is justifiable given the 
following facts: 

■ the social and cultural context of the language has undergone great 
changes, resulting in lexical attrition; 

■ the language is used mosdy by the parental generation and up; 

■ the limited numbers of LI resident speakers, who are constandy subject to 
emigration; 


~ 137 ~ 


LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


■ many speakers have negative attitudes towards the language and think their 
children would be better served by speaking other languages. 

The present project of com piling a Berber-French dictionary is partly motivated by 
the critical need for language resource materials on which language revitalization 
and language standardization depend. 

12. Review of literature 

There are four major studies on the Berber of Figuig, as well as a few 
shorter ones. The earliest source is a s mall glossary of 3 1 pages by Basset 
(1885). However, Basset’s work should be read with much caution. No more 
major fieldwork was conducted on Figuig Berber until 1994 and 1995, when 
Marteen Kossman and Fouad Saa defended their theses, respectively. Saa 
(1995) studies some aspects of the phonology and verbal morphology of 
Figuig Berber based on the generative framework. The thesis appendix is 
very interesting as it lists the verbal paradigm of 1296 verbs, along with 
their derived forms. Kossman’ s thesis, which was published as a book in 
1997, gives a general description of the grammar of Figuig and provides a 
144-page Berber-French glossary in the annex. This grammar is an excellent 
descriptive analysis and the glossary is very helpful. The final two major 
original sources are Ben-Abbas (2003) and Sahli (2008). Ben-Abbas (2003) 
investigates the sociolinguistic aspects of word-borrowing between languages in 
contact, mainly Arabic and French, while Sahli (2008) gives a brief gr ammar 
sketch of the language, together with a Berber-Arabic glossary. The glossary 
consists of a list of 2250 words without context, exclusively from the dialect 
spoken in Ksar Laabidate. Another important study is a collection of 
folktales by Ben-Amara (2007). Ben-Amara transcribes an interesting 
number of tales from Figuig, but does not translate them. He gives, 
however, a list of the words used in these tales with their French gloss. 

2. Printed Version of the dictionary 

22. Compiling of the dictionary database 

The dictionary database is compiled using Toolbox, a program produced by SIL 
International (formerly the Summer Institute of Ling uistics). Toolbox uses 
MDF standard (Coward and Grimes, 2000) for lexicon structure and converts 
certain files in Standard Format into RTF (to be further processed and printed with 
MS-Word). Toolbox provides field lexicographers with the ability to integrate 
various types of data: lexical, grammatical, semantic, etc. It has many options for 
selecting, sorting, and displaying data. It is very useful for helping researchers 
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generate a reversed finder list as well as analyze and interlinearize text 
corpora. A sample of the printed output for a for ma tted dictionary and a reversed 
finder list are found in the appendix. 

The typical database entry has the following fields: 

Mx Lexeme (is the abstract conso nant al root) 

\se Subentry (derived word) 

\va Variant form 

\vn Variant comment (shows source of variant: name ofKsar or name 
of author) 

\ps Part of speech 

\sn Sense number 

\m Reversal (this gives the French word(s) or phrase(s) desired 
for a reversed French-Berber finder list) 

\dn French definition 

\sc Scientific name (two-part name of a species, especially for plants) 
\ng Grammatical information (mainly for the different verb stems) 

\sy Synonym 

Nan Antonym 

\cf Cross-reference (general purpose cross-reference) 

\xv Example in Berber 

\xn Translated example in French 

\sd Semantic domain (for entering semantic fields) 

Nnt General Notes (dialectal forms and l an guage name from which the 
word is borrowed; dialectal forms come from published Berber 
dictionaries and glossaries) 

\vr See (this is a field which I added to cross-reference a variant item 
to a main entry where fuller information is found) 
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Toolbox - [Backup of Backup of Dfctionary.txt] 




& Fhle Edit Database Project Tools Checks View Window Kelp 




y i 



N- -H 



£! M « + 


[no filter] 


\ix 

'v? h 

\ng 

\ps 

\va, 

'■■yn 

\ng 

\ps 

\m 

\dn 

\lf 

\nt 


v-v 

Vvn 

\se 

\vs. 

\vn 

\ps 

\rn 

\dn 


QY(W) 

sqeyqew 

isqeyqeTH\ un isqeyqeTV* isqeyqmv. an isqeyqmv 

v 

sqeyqey 

Zeng 

isqeyqey, ul isqeyqey, isqiquy. ul isqiqixy 

v 

glousser : caqueter 

onomat. glousser, caqueter T crier (poule) 
syn. = sqvttey, \QTY 

sq[qi f sqaqa (Chl) f sqaqa £Xtf) f sqiqey (Me), seqqiqey £\IcS}, 
(s)qaqa, squqer (Rif), sqaqay, sqiqiv (Izn)* (s)kaka (On a), sqiqi 
(Ght): m. so.; s/zgaga (Mzb): caquter* roucouLer 

♦ tyazitt isqeyquwen (isqiquyen) un (ul) 
tettirew 

Htt. la poule qui glousse ne pond pas: (dicton). 
asqeyqew (n-> 

asqeyqey (u-) 

Zeng 
pi . vb 

gloussement ; caquetage 
gloussement caquetage 


'.Jx QY 


& 


Figure 1: sample entry from the dictionary database (in Toolbox format) 

A sample entry which shows how the information in database is organized (in 
Toolbox format) is given in Figure 1 . The Mx field shows the main form of the 
lexeme, which is actually the consonantal roof, and \ps gives the part of speech. \se 
shows the derived words. The tav field gives the definition of the word in French, 
tav, tan pairs give example sentences and their French translations. \va lists variant 
transcription of the item, and \vn shows which source the variant came from (name 
of Ksar). The \nt field lists attested Amazigb. dialectal forms. 
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22. Amazigh Lat Keyboard 

The transcription of Berber in the dictionary is based on a standardized Latin 
transliteration system, as used by Berberists. However some of the symbols can 
be different from what is commonly used, as shown in (1): 

( 1 ) 


Our system 

Other systems 

IPA 

e 

3 

3 

$ 

C 

S 

V 

Z 

• 

j 

3 

ts 

e 

tf 

dz 

V 

g 

<3 

Y 

g 

Y 

X 

b 

X 

d 

a 

d/t 

t 

t 

t/t s 

t h 


To enter text in Berber, I do not use Windows tools such as Character map because 
they can he very cumbersome. Instead, I created a keyboard layout designed to my 
own specification. The virtual keyboard, called Amazigh Lat, is made for regular 
writing and is compatible with Unicode fonts, such as the most recent versions of 
Times New Roman (from v. 5.0) and Arial (both supplied in Windows Vista and 
Windows 7). Amazigh Lat keyboard is used with Tavultesoft Keyman Desktop 
program, a utility for man aging keyboard input methods. Both the program and the 
keyboard can be downloaded at http ://www.tavultesoft. com . 

23. Transcription approach 

The transcription adopted for lexical words in the dictionary is phonetic (broad) 
rather than phonological. The intent is to show phonetic aspects that characterize 
Figuig variety and compare it to other Amazi gh varieties. Apart from 
spirantization, devoicing of some geminates is an important feature that is noted at 

the phonetic level. The voiced geminates /bb, dd, dd, gg, gg 7 are realized as [pp, 

44, .ft, kk, kk | both at the lexical and morpho-phonenic level. The voiceless non 

aspirated geminate [441 (IPA ttj) is indicated through the use of the IPA diacritic 
for devoicing, the under-ring, to distinguish it from the voiceless aspirated 

geminate [tt] (IPA [tt h ]) (Yeou et al., 2011). 

The phonetic approach is also motivated by the intent to record dialectal 
variation inside Figuig Berber itself. For example, the data below shows that 
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absence / presence of pharyngealization or aspiration in an important indicator 
of dialectal variation: 



Upper Figuig 

Zenaga 

ttrid 

ddrid 

o o 

ddir 

o o 

deyyer 

iY zer 

iY zer 

■ ■ 

tsar 

.tsrtr 

44 er 

tter 

tter 

tter 


“thin pancakes” 

“foot of mountain” 
“river, wadi” 

“fill (up), be filled (up)” 
“live” 

“ask for charity” 


As far as the representation of morpheme boundaries is concerned, I adopt a 
‘syntactic’ approach based on the criterion of syntactic mobility (see Stroomer, 
1994). Hence spaces will preferably used rather than hyphens to mark 
morphological segmentation. For example, transcription type (a) will be 
adopted rather than type (b): 


(3) la. Inna yas sad isek ti44art nnes “He told him that he will build 
his house” 

lb. Inna-yas sad isek tujcjart-nnes 

2a. ppas d mmis rahen y res “His father and his son went to 

see him/her” 

2b. ppa-s d mmi-s rahen y r-es 

As regards assimilation processes, I generally adopt a phonological approach: 

■ The subjunctive and future marker ad is always transcribed as /ad/, 
given that its assimilation to the following consonant is predictable: ad 
tv er [at tY er] “that she will study”, ad nv er [an nY er] “that we will 
study” 

■ The prefix /t-/, which assimilates in voicing to the following consonant, 
is also transcribed phonologically: tezde y [dezdev ] “she lived”, tezzey 
[dezzey] “she recovered” 

However, a phonetic approach was preferred in the case where there might be 
some dialectal variation, namely for the feminine morpheme suffix /-t/, the 
causative prefix /s(s)-/, and the intensive form prefix /tt-/: 


(4) 

Loudaghir, Maiz 

Other ksour 



tadist 

tadiss 

“stomach” 


tamazuzt 
■ ■ 

tamazuss 

* A ■ 

“late season, youngest daughter’ 


tasemmust 

tasemmuss 

“bundle, knot” 

(5) 

Upper Figuig 

Zenaga 
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sdurder 
■ ■ ■ ■ 

ssendew 


sdurder “deafen” 

s^endew “cause to jump” 


(6) Loudaghir 
ttezdid 
ttezluluf 


Zenaga 

ddezdid “become thin [intensive form]” 

ddezluluf “singe [intensive form]” 


24. The layout of the entries 

The present dictionary uses a root-based approach, even if this approach has its 
practical weaknesses. This approach was partly motivated by the desire to serve the 
needs and interests of die academic community of linguists interested in 
researching the Amazigh language, or related languages. 

The layout of the entries is organized as follows: 

■ Roots in bold capitals are arranged in the following alphabetic order. B, D, 
D, F, G, H, I, K, K w , L, M, N, Y, R, S, S, S, T, T, W, X, Y, Z, 1, £. Roots 
starting with D, R and Z are, however, listed with D, R and Z, respectively 

■ The items in a root entry are grouped according to their semantic relation. 

■ For each root entry, simple verbs are listed first, and then the derived verbs 
with the following prefixes: /s-/, /m-/, /ttw-/, for the causative, the 
reciprocal and the passive, respectively. After that, verbal nouns for both 
simple and derived verbs are given, and finally, nouns and adjectives. 

■ For each verb, the first line gives the aorist as the basic form, followed by 
the other forms, mainly the preterite, the negative preterite, the intensive, 
and the negative intensive. The slash separates variant forms if there are 
any. 

■ For each noun or adjective we list the marker of the construct state 
between parentheses: (u-), (w-), etc. 


25. The strengths of the present dictionary 


25.1 . Exhaustiveness and volume 

This dictionary project aims to develop a comprehensive dictionary of Figuig 
Berber with French translation and extensive dialectal cross-references. The 
present dictionary tries to avoid the following weaknesses of previous work on the 
lexis of Figuig: (1) word-for-word translation; (2) lack of real uttered sentences; (3) 
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limitation to one co mmunit y dialect; (4) limitation to the literal dimension of 
meaning 

In this project, I will bring together not only an extensive compilation of words in 
Figuig with authentic sample sentences and their French translations, but also 
figurative and idiomatic uses of some of these words. In addition to that, some 
patterns of expression like proverbs, riddles and excerpts from songs and tales are 
included, because they reflect the culture of the Figuigui community more than 
every other kind of linguistic unit. 

The Amazigh Figuig variety is characterized by some minor dialectal variation due 
to the fact that Figuig comprises seven seperate ksours or co mmu nities situated on 
two levels: The upper level consists of Laabidate (At nnez), Loudaghir (At Deddi), 
Oulad Slimane (At slimane), Hamam Tahtani (At warjcjay); Hamam Foukani (At 
□amer) and El Mai'z (At lernUiz), and the lower level consists of Zenaga 
(Iznayen). There is complete mutual intelligibility across the communities, and the 
small variation that exists will be noted in the dictionary. The default dialect is 
upper Figuig, namely Loudaghir, but variant forms are listed in the variant field 
(\va). 

252. Dialectal cross references 

At the bottom of each lexical entry, the dictionary lists attested forms from 
Amazigh languages or dialects given in Table (6), and whose references are given 
in the bibliography. It also indicates if the meaning is different or similar to that of 
Figuig. If the word is borrowed, etymological information about the source 
language and the original form is given. 

( 7 ) 


Me 

Tamazight of central Morocco 

Zen 

Zenaga of Mauritania 

McS 

Tamazight of south central 
Morocco 

Aha 

Tahaggart 

Chi 

Tachelhit 

Nig 

Tamajeq (Tawellemmet, 
Tayert) 

Rif 

Tarifit 

Mai 

Tamasheq of Mali 

Tzn 

Beni Iznassen 

Nef 

Nafiisi 

Sen 

Senhaja de Srair 

Ght 

Ghat 

Ntf 

Ntifa 

Ghad 

Ghadamgs 
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Kab 

Kabyle 

Snd 

Sened 

Che 

Chenoua 

Djr 

Djerba 

Cha 

Tachawit or Chaoui 

Chn 

Chenini 

Sns 

Beni Snous 

Dw 

Douiret 

Ace 

Central Algeria 

Ght 

Ghat 

Mzb 

Tumzabt of Mzab 

Ghad 

Ghadamds 

Oua 

Tagargrent of Ouargla 

Siw 

Siwa 

Tim 

Gourara, Touat, Tidikelt 




3. Electronic Version of the dictionary 

To generate the electronic version of the database, Lexique Pro was used. Lexique 
Pro is a free program developed by the Summer Institute of Linguistics (SIL). It 
transforms data from a Toolbox and formats it in a dynamic viewer. 



Figure 2: snapshot of the electronic version of the dictionary 
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The generated interactive dictionary has the advantage of displaying the database 
in a user-friendly format. The user can navigate by clicking on hyperlinks to related 
entries such as synonyms, variants, cross-references, semantic categories. Figure 2 
shows a snapshot of a lexical entry from the electronic version of the dictionary. 
On the left we can either access die entries, the dictionary roots, by clicking on 
“Figuig”, or access the reversed French finder list by clicking on “French”. Both 
the roots and the French words are organized in alphabetical order. Moreover, we 
can also view entries by semantic do main if we click on the Category button. 
Work on thematic categorization is ongoing and only the following semantic fields 
have been entered so far : 

■ Kinship terms 

■ Animal s 

■ Body Parts 

■ Food & Drink 

■ Clothing 

■ Agriculture & Vegetation 

■ Religion & Beliefs 

The advantage of the electronic version generated by Lexique Pro is that it can be 
distributed as a packaged setup program and can also be exported to a set of web 
pages, in text, html, or xml formats. 

4. Conclusion 

The dictionary has been on the making for several years. We hope that it might be 
completed in approximately six months. It is expected that the dictionary will have 
roughly eight thousand words when completed. 
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Appendix: example of dictionary page and finder list 


DN 

adan (w-) n. 4 intestins (en general), le 
petit intestin. 0 adanen n tmurt litt. 
intestins de terre: lombric, ver de terre. 
cf. ’adan n tmuat’ (Rif): m. sn. Cf.: 
tameswadant, VMSWDN; imegren, 
Vp RN; tasuft, VSF. PL: adanen. dial & 
etym>: adan, adan (Chi), adan (Me, Izn, 
Rif, Sen, Cha, Che, Ace, Sns, Mzb, Oua, 
Ghd, Ght, Nef), adan, aden (Snd), adan 
(Aha): boyau, intestins comme sn. 
commun; d6r. du v. eden (Aha): graisser, 
Stre graiss6. 

tadunt (<J4 _ /td-) n. 4 graisse (d’origine 

animale). 0 mi 44 un ( u 0 M 44 u °t 
ukk mu§§ iqqar (iqqar) as yexx / mikk 
un (ul) teyxis 44 UB t ukk ipi# iqqar 
(iqqajr) ammu tfuji litt. quand le chat 
n'arrive pas k avoir la graisse il lui dit 
"pouah!" / qu'est ce qu'elle pue!: se dit 
pour qqn. qui minimise l’importance 
dWe chose sonhaitable, mais qu’il est 
incapable de rdaliser (dicton). syn.: 
tilebglin, LBp. dial & etym.: tadnnt (Chi, 
Ntf, Sen, Me, Izn, Ri£ Cha, Sns, Mzb, 
Oua, Nef, Tim, Snd), tadunt, tadwent 
(Ace), tadent (Aha), tadent, tedent (Nig): 
m. sn. 

adun n. 4 augment, du pr£c6d. 

DN 

aden yuden, un (ul) yudin, ittaden, un (ul) 
ittiden v. 4 couvrir, recouvrir, couvrir de 
couverture (dormeur); etre couvert 0 adn 
it ammen ad couvre-le d*une 

couverture pour qu'il dorme. 0 adfel qaD 
ilia yuden ajlrar la neige a 
compl&tement couvert la montagne. 0 
tella tuden imma nnes an (al) ixef nnes 
elle s'est couverte jusqu'i la tete. 4 fig. 
couvrir, proteger, chercher a innocenter 
(coupable, accus6). 0 itekk ^zbayel ppas 
ittaden xfes il fait des fautes graves, 


mais son pere ne le denonce pas pour le 
proteger. dial & £tym.: aden (Mzb, Oua, 
Izn, Ace, Sns, Tim, Snd, Ghd, Nef): 
couvrir et/ou pass. 

ttwaden ittwaden, un (ul) ittwaden, 
ittwadan, un (ul) ittwidin v. 4 Stre 
couvert, reconvert 0 tettwaden tmurt s 
wedfel (udfel) la terre a ete couverte de 
neige. 4 fig. etre protege, innocente, 
couvert 

idan (y-) n. vb. 4 fait de couvrir, de 
recouvrir, de couvrir de couverture; 4 fait 
de chercher a innocenter. 

madun (u-) n. 4 plaque, dalle de pierre; 4 
dalle de tombeau. 0 inemdan wala 
imudan litt. il vaut mieux [s’appuyer sur] 
une canne qu’une dalle de tombeau: 
plutot souffrir que mourir (dicton) syn.: 
taglelha, VDLH. PL: imadunen. dial & 
£tym.: madun, tmadunt (Mzb), teddenen 
(Zen): mm. sn. 

tmadunt n. 4 couvercle, tout ce qui 
couvre; 4 bouchon. 0 tmadunt n uqlil 
couverle de cruche, dune th6ifere. 0 
tmadunt n uy ellay couverle de 
bouilloire. 0 tmadunt n tmermitt 
couvercle de marmite. 0 tmadunt n 
qejDet bouchon de bouteille. 0 tmadunt 
n tift litt. couvercle de l'aeil: paupiere 
(superieure). 0 yuf uqlil tmadunt nnes 
litt. la cruche a trouv6 son couvercle: qui 
se ressemble s’assemble (dicton). PL: 
timadunin. dial & £tym madun (Tim), 
addan (Mzb), adan, badun (Oua), amaden 
(Ghd): m. sn.; madun (Izn, Rif), mudun 
(Ace): couscoussier. 
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dent n.tiv mest(te-), YMS. 
dent (de cld) n. tiswet (te-), SW. 
dent (de fourche) n. qaSSaw (u-), Q§(W). 
depuis prip. si, S. 
dernier n, adj. anekkaru (u-), KR. 
demier-ne 72 . adj. ama^ (u-), M£. 

derriere prep . adv. 72 . defier, DFR. 

descendre v. hwa, HW; 

v.zder, ZDR 

descente n. asehnennay (u-), HNY; 

72 . v/>. hekku (u-), HW. 
dcssous n. a4i|ay (w-), DY. 

dessechement n.vb. asiqqur (u-), Y 9- 

dessecher v. ssiqquj*, Y^L 

dess6cher (se) v. a*Jen, DN; 

v. hSiSef, HS JjL. 

desseche n. adj. majlun (u-), J)N; 

adj. n. ameqqur (u-), Y9- 
destinde n. mimun(u-), MN. 

dette n. ainerwas (u-), RWJ5. 

deuil n. anebdi (u-)> NBD. 

deux(fem.) n. adj. sent, SN. 
deux(masc.) 72.flJ7.senn, SN. 
devancer 72 . asul, SL; 

v. zzar, ZR 

devant prip. adv . 72 . zzat, ZT. 

devenir v. dwel, DWL; 

v. ji|ia 
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Les ressources langagieres pour la recherche 
d'information textuelle: Cas de la langue 

amazighe 


Fadoua Ataa Allah 1 , Siham Boulaknadel 1 

'CEISIC, IRCAM 

{ataaallah, boulaknadel} @ircarn.ma 


Resume 

Le passage de la langue amazighe de l’oiale k l’ecrit lui a permis d’etre dote d’un 
systeme d’ecriture electranique assurant son integration aupres de ses consoeurs 
dans le domaine des nouvelles de 1’ information et de la communication. 
Ndanmoins, cette integration suscite Elaboration aussi d’outils et de ressources 
langagieres particuli&rement pour la recherche d’information. 

Dans ce contexte s’inscrit cet article qui consiste a decrire les differentes ressources 
langagieres pour la recherche d’information et leur elaboration dans la perspective 
de les exploiter Hans un systeme de recherche d’information dedie a la langue 
amazighe pour amdliorer l’acc^s k l’information. 

1. Introduction 

La recherche d’information est une discipline qui a 6volu6e judicieusement dans le 
temps. Elle remonte au d6but des ann6es 1950, ou elle a 6t6 destin6e 
principalement k 6tudier et concevoir des outils de recherche r6serv£s k une 
communaut6 de spdcialistes (Mooers, 1948). Particuli&rement, les premiers 
systdmes de recherche d’information ont 6t6 construits afin d'aider les 
bibliothecaires a retrouver des documents contenus dans des bases 
bibliographiques. Or avec l’avenement du Web, la recherche d’information s’est 
vulgarisee notamment par le biais des moteurs de recherche. Ainsi, 1’ explosion des 
donnees numeriques disponibles a rendu le recours a des moyens de recherche 
performants et automatiques indispensable. 
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De ce fait, la recherche d’information textuelle a evolue de la recherche 
documentaire proprement dite vers des taches de plus en plus nombreuses et 
diversifiees permettant le stockage, l'analyse et la recherche de tout type de medias 
(texte, audio, image et video). Neanmoins, les systemes de recherche d’information 
suscitent toujours l’intdret des chercheurs afin de minimiser 1’ ambiguity que peut 
entrainer une langue. Cette ambiguity peut ddcouler des diffdrentes formulations 
que peut avoir un meme concept, ou les documents pertinents contiennent des 
termes s6mantiquement proches de ceux de la requete mais exprimds diffdremment 
par le biais de la synonymie, l’hyperonymie, la flexion ou de la derivation. 
Comme, elle peut Stre & l’origine d’un probl&me de polysdmie (Moreau et S£billot, 
2005). 


Afin de relever ces ddfis lies a la complexite du langage naturel, plusieurs travaux 
bases generalement sur l’integration de ressources langagieres ont et£ realises 
(Agirre et al., 2010 ; Dolamic et Savoy, 2010 ; Guelfi et al., 2007 ; Moreau F., 
2006). Ces travaux ont prouvd, k travers les evaluations effectuees et les 
statistiques r6alis6es k base des corpus et des methodes d’evaluation bien choisis 
(De Loupy, 2001), que 1 ’utilisation de ressources langagieres a favorise une 
meilleur representation d’une part du contenu informationnel et d’autre part le 
besoin des utilisateurs, permettant ainsi 1’ amelioration des systemes de recherche 
d’information. 


Dans ce contexte, nous avons adopte au sein du centre des etudes informatiques, 
systdme d’information et de communication une strategic progressive d’eiaboration 
de ressources langagieres dediees & la langue amazighe, en vue de les exploiter 
pour ameiiorer son systeme de recherche d’information integre dans le site 
officielle de l’IRCAM (Ataa Allah et Boulaknadel, 2010). Ainsi, nous avons dans 
un premier temps procede par la construction selon des normes reconnues dans ce 
domaine des ressources electroniques basiques et elementaires, a savoir la liste des 
mots anti-dictionnaires et le corpus d’evaluation, dans la perspective d’elaborer des 
ressources langagieres plus avancees tel que les vocabulaires controles et les 
thesaurus. 


Dans la suite de cet article, nous difinissons et nous exposons, dans la section 2, la 
structure d’un systeme de recherche d’information. Ensuite dans la section 3, nous 
proposons une classification pour les ressources langagieres selon la structure d’un 
systeme de recherche d’information. Dans la section 4, nous presentons un 
descriptif des ressources exploitees dans la recherche d’information. Puis avant de 
conclure, nous exposons les ressources en cours de realisation dediees pour la 
langue amazighe. 
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2. Systeme de recherche d’information 

Le systeme de recherche d'information consiste k 6tablir une correspondance 
pertinente entre l'information rechercltee, reptesentee g&teralement par le biais 
d*une requete, et l’ensemble des documents disponibles. Ainsi, le systeme s'appuie 
sur un ensemble de processus, articutes autour de deux Stapes essentielles : la phase 
d'indexation des documents disponibles et la phase de recherche ou de 
^interrogation du fonds documentaire ainsi constitue (Bonnel et Moreau, 2005 ; 
Bensefia et al., 2003). 

La phase d'indexation consiste k analyser les documents et les requetes afin 
d’extraire le jeu de descripteurs qui permettra la representation de leur contenu 
textuel et leur exploitation par un module de recherche d’information predetermine. 
A la base de ce modele, l’etape de recherche vise a apparier les documents et la 
requete de l*utilisateur en comparant leur representation. Puis, de selectionner et 
d’afficher les documents les plus pertinents, dont les descripteurs d'indexation sont 
les plus proches de ceux de la requete. 

En outre de ces deux phases, le processus de recherche d’information peut integrer 
une etape de reformulation afin d'ameliorer la performance du syst me en tentant 
de rapprocher la requSte de l’utilisateur de son besoin d'information initial. Or, une 
telle reformulation n’est adoptee qu’aptes une phase d’6tude et devaluation. 



Figure 1. Structure d'un systeme de recherche d’information 
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3. Ressources langagieres pour la recherche d’information 

Dans un processus de recherche d’information, une grande variete de ressources 
langagieres peut Stre exploit6e. Ces ressources peuvent £tre classes selon leur 
integration dans les phases de ce processus. 

3.1. Phase d ’indexation 

Dans l’interet d’ameiiorer la performance des systemes de recherche d’information, 
plusieurs types d’informations linguistiques peuvent dtre exploit's pour enrichir les 
termes du jeu descripteurs d’indexation. Ces informations sont soient extraites & 
l’aide des outils linguistiques tels que les lemmatiseurs qui permettent de regrouper 
les mots selon une forme lexicale choisie par convention au sein d’un paradigme 
flexionnel, les racineurs qui consistent a regrouper les mots de la meme famille 
selon leur racine, et les analyseurs morpho-syntaxiques qui se basent sur l’etude 
des formes et des regies de combinaison des morphemes (Moreau et al., 2007); ou 
a partir de ressources langagieres telles que les listes des mots anti-dictionnaires, 
les vocabulaires contrives et les ontologies (Brisaboa et al., 2010). 

32. Phase de reformulation 

G6n6ralement, les utilisateurs des systemes de recherche d’information, 
particulierement les moteurs de recherche, ne sont pas des professionnels de la 
documentation. Done il est difficile pour la plupart de ces utilisateurs de formuler 
id6alement leurs requetes exprimant le mieux leurs besoins en terme 
d’informations (Smail, 1998). Afin de surmonter ce probleme, les systemes de 
recherche d’infonnation souvent integre une etape de reformulation automatique de 
la requete dans leur mecanisme. Elle consiste a modifier la requete initiale, en 
ajoutant de nouveaux termes extraits des risultats de recherches pr6c6dentes ou 
d’une base de connaissance telle que les thesaurus, les vocabulaires controls et les 
ontologies (Hoang Diem, 2009 ; Mandal et al., 1998). 

33. Phase devaluation 

Avec revolution des techniques du traitement automatique des langues, 
revaluation de la performance des systemes de recherche d’information est 
devenue une etape indispensable dans le processus de conception de ces systemes. 
Elle sert a mesurer la pertinence des resultats vis a vis du besoin des utilisateurs. 
Dans ce contexte, les campagnes d’ evaluation telles que TREC (Text REtreival 
Conference) et CLEF (Cross-Language Evaluation Forum) proposent des plates- 
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formes qui reunissent des protocoles devaluation et des collections de test 
volumineuses contenant des documents, des requetes prealablement constitutes et 
des jugements de pertinence associes. 


4. Descriptif des ressources langagieres pour la recherche 
d’information 

Parmi les ressources langagieres les plus utilises dans le domaine de la recherche 
d’information, nous citons les listes des mots anti-dictionnaires, les vocabulaires 
controles, les thesaurus, les ontologies, et les corpus. 

4.1. Liste des mots anti-dictionnaires 

La liste des mots anti-dictio nnair es consiste en un ensemble de mots ou de termes 
determines comme etant des mots peu informatifs et non pertinents pour la 
recherche d* information. Ces mots s'appellent aussi des mots vides, 
« grammaticaux » ou des mots outils. Generalement, ils se composent de 
prepositions, d'articles, de pronoms, d’auxiliaires ou encore de mots tres frequents 
au sein d*une collection de textes speciflque a un domaine donne. 

42. Vocabulaires controles 

Un vocabulaire controle, en sciences de l'information, est une liste de mots et 
depressions soigneusement choisis afin d’etiqueter les documents de maniere k 
rendre leur repdrage lors d'une recherche plus facile. Les vocabulaires contrdies 
permettent de resoudre les probiemes lies k lTiomographie, la polysemie et la 
synonymie, par une relation bijective entre les concepts et les termes acceptes, et 
reduisent l'ambiguite inherente au langage humain naturel, oh differents noms 
peuvent etre attribues h un meme concept. 

43. Thesaurus 

Dans un thesaurus, le vocabulaire controle est organise sous forme d’un ensemble 
hierarchique de termes cies representant des concepts d’un do maine particulier. 
Cette hierarchisation peut correspondre a une specialisation, ou un terme du 
vocabulaire est lie a ses descendants par des relations precises ; ou a un 
eiargissement, ou le thesaurus donne de l'information sur des sujets connexes et 
relatifs au terme. 
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44. Ontologies 

En infoimatique et en science de Information, une ontologie correspond a un 
vocabulaire controle et organise et a la formalisation explicite des relations creees 
entre les differents termes de ce vocabulaire, permettant de donner un sens aux 
informations. Ces relations sont, le plus g6n6ralement, organises par un graphe et 
peuvent etre de type s6mantique ou de composition et d1i6ritage. 

45. Corpus 

Les corpus sont des collections de donn6es s61ectionn6es et organises selon des 
entires explicites pour servir comme un dchantillon d’une langue donn6e pour un 
traitement particulier, ou comme une r6f6rence pour foumir une information en 
profondeur. D’ou la necessity que ces corpus doivent etre suffisa mme nt 
representatifs d’une maniere qu’ils contiennent toutes les varietes pertinentes d’une 
langue et de son vocabulaire. 

En g£n6ral, les corpus sont caract6ris6s par la nature de la langue trait6e et par le 
contenu. Ainsi, un corpus peut traiter une langue ou plusieurs langue comme peut 
traiter du texte ou du multimddia. Son contenu peut Stre sous forme de donnges 
brutes ou de donnees enrichies par des annotations grammaticales et 
morphologiques ou des informations semantiques. 

5. Ressources langagieres en langue amazighe 

Apr&s la conception et l’Slaboration d’un moteur de recherche basique pour la 
langue amazighe (Ataa Allah et Boulaknadel, 2010), 1’ amelioration de sa 
performance par l’exploitation de connaissances linguistiques est une demarche 
progressive. Elle s’est initiee par l’integration d’une liste de mots d’anti- 
dictionnaires con^ue a partir de « La nouvelle grammaire de 

1 ’amazighe » (Boukhris et al., 2008) et la realisation en cours d’un corpus 
d’evaluation selon les protocoles adoptes par TREC. 

5.1. Liste des mots anti-dictionnaires 

La liste des mots outils que nous avons r6alis6e est compos£e de particules 
d'aspect, pronoms personnels autonomes, pronoms affixes du verbe direct, 
pronoms affixes du verbe indirect, particules d* orientation, particules de negation, 
pronoms interrogatifs, subordonnants, pronoms affixes du nom ordinaire, 
demonstratifs de proximite, demonstratifs d’eloignement, demonstratifs d’absence, 
pronoms prepositionnels, pronoms demonstratifs, pronoms interrogatifs, pronoms 
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indefinis, prepositions, adverbes de lieu, adverbes de temps, adverbes de quantite, 
adverbes interrogatifs de quantite, adverbes interrogatifs de maniere, conjonctions, 
morphemes du pluriel, particules preverbales, particules predicatives. 


Type 

Particule 

Conjonction 

oE « am » comme 

Adverbes de lieu 

Ao « da » ici 

Preposition 

VoO « yur » chez 

Subordonnant 

eEZo « aqqa » 

que 

Pronoms 

indefinis 

tC+ « ict » une 


Table 1. Exemple de mots anti-dictionnaires 


52. Corpus 

Dans la perspective d’elaborer un corpus electronique d’ evaluation pour les 
systemes de recherche d’information de la langue amazighe, nous visons a 
construire un corpus representatif qui contient des textes de differents genres, a 
savoir les textes scientifiques, medicaux, des articles joumalistiques, des textes des 
sciences humaines, de contes et de poemes. Or vu la rarete des textes ecris en 
amazighe, nous sommes actuellement en cours de collecter au moins l’existant 
dans l’attente d’enrichir ce corpus dans le futur. 

Par ailleurs, nous avons opt6 de suivre le protocole entrepris par les campagnes 
d’6valuation TREC (Craswell et al., 2005 ; Voorhees, 2005), af!n que notre corpus 
soit elabore selon une norme reconnue dans le domaine de la recherche 
d’information. Ainsi apres la phase de la collecte, nous entamons une deuxieme 
phase de de-balisage des sources HTML qui sera succedee par une troisieme etape 
qui consistera a convertir tous les textes en tifinaghe Unicode. Ensuite, nous 
regroupons tous les textes dans un seul fichier, ou chaque texte est etiquete par son 
identificateur, sa date de publication, sa categorie et son contenu comme s’est 
repr6sent£ dans la table 2. 
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<doc> 

<docid> 10 </docid> 

<date>2008 </date> 

<fld> story </fld> 

<text> 

<title> 

t\Qt A U8CCI 
</title> 

/ol UoOO, *HHV ACCC * 1 ©*, OX +0AA0O+ HO, iAAo 4*0 +0X0I+ 
oA iOOoOo . 

/8H0 X +0X0I+ 1 4 CK oCCI . 
tllo oO XtlO{ : .... 

</text> 

</doc> 


Table 2. Exemple de document 

Aprds, nous construisons un jeu de requites en s'inspirant toujours des campagnes 
devaluation TREC. Ces requites comportent quatre champs : un identificateur, un 
titre nommant le theme ; une description enon?ant l'objet de la recherche ; et un 
developpement explicitant des criteres de validite des rapprochements, des mots- 
cles foumissant le contexte terminologique et les concepts concemes. Cette forme 
apporte une information aussi complete et detail ! ee que possible, y compris des 
connaissances avancdes sur le domaine grace aux mots-cl£s. Un exemple de ces 
requites est prgsentd dans la table 3. 


<top> 

<num> Number: 2 </num> 

<title> 

+0OU0 1 +C 80 + 

</title> 

<desc> Description : 

0 >K 8 XH oEQtO tOOoUoHI XX +oOU. I +C 80 + 

</desc> 

<narr> Narrative: 

tEQtOI iOOoLJHI XH 8EX0OO0 IoO +»OUo I +CSO+ A +«OUo I 
8XII0, +o/ 0 < I +C 80 +, +8AO+ +i++H‘i 1 A ©X 8AAA*© I +CSO+ . 
</narr> 

</top> 

Table 3. Exemple de requetes 
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Puis, nous constituons line lists de jugement de pertinence qui se base sur une 
selection manuelle, par plusieurs locuteurs de la langue amazighe, des documents 
pertinents pour chaque requete. 

En outre, au cours de 1’ Elaboration de notre corpus, nous avons envisagE qu’il 
vErifie trois types de conditions : les conditions de signifiance, les conditions 
d'acceptabilitE, et les conditions d'exploitabilitE (Pincemin, 1999). 

- Conditions de signifiance : notre corpus est constitue en vue de l’Evaluation de la 
performance des amEliorations que nous dEsirons apportE au systEme de recherche 
d’information que nous avons ElaborE pour la langue amazighe. Les documents 
retenus sont extraits des differents ouvrages edites par notre institut ainsi que des 
pages Web du son site officiel. 

- Conditions d'acceptabilitE : le corpus apporte une representation fidele, sans 
aucune modification au niveau du contenu a 1’ exception de changement du codage 
utilise en cas de besoin, de maniere a avoir une homogEnEitE au niveau du codage 
et de ne garder que l’UNICODE. Par ailleurs, le modele de requete utilisE as sur era 
un niveau de dEtail adapte au degrE de finesse et a la richesse attendue en rEsultat 
de l'analyse. 

- Conditions d'exploitabilitE : nous envisageons que les textes qui formeront notre 
corpus seront commensurables de telle sorte que leur contenu reprEsente 
l’intEgralitE de l’ouvrage ou de la page Web exploitEs. En outre, nous visons que ce 
corpus devrait apporter sufQsamment d'ElEments pour pouvoir reperer des 
comportements significatifs (au sens statistique du terme). 

6. Conclusion 

Le manque des ressources langagiEres pour la langue amazighe a un impact majeur 
sur 1’amElioration d’accEs a 1’ information et sur la diffusion de la langue amazighe 
a travers le Net. Ainsi dans la perspective de surmonter cet obstacle, nous avons 
envisagE dans cet article d’EnumErer les diffErentes ressources utiles pour la 
recherche d’information et de dEcrire la mEthodologie entreprise dans la rEalisation 
des ressources langagiEres basiques. 


*• 161 *• 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


References : 

Agirre E., Arregi X., Otegi A. (2010). Document Expansion Based on WordNet for 
Robust IR. Actes de Coling’2010 (23 rd International Conference), pp. 9-17. 
Beijing, China. 

Ataa Allah F. et Boulaknadel S. (2010). Amazigh Search Engine: Tifinaghe 
Character Based Approach, Actes de IKE’2010, pp. 255-259. 

Bens6fia A., Paquet T. et Heutte L. (2003). Documents Manuscrits et Recherche 
dlnformation, Revue Document NumArique, vol. (7) : 47-60. 

Bonnel N. et Moreau F. (2005). Quel avenir pour les moteurs de recherche ?. Actes 
de MajecSTIC ‘ 05 . 

Boukhris F., Boumalk A., Elmoujahid E. et Souifi H. (2008). La nouvelle 
grammaire de I'amazighe, IRC AM, Rabat, Maroc. 

Brisaboa N.R., Luaces M. R., Places A. S. et Seco D. (2010). Exploiting 
geographic references of documents in a geographical information retrieval 
system using an ontology-based index. Geolnformatica, vol. (14) : 307-331. 

Craswell N., Hawking D., Wilkinson R., et Wu M.(2005). Overview of the TREC 
2004 web track. Actes de TREC 2004 (13 ime Conference). 

De Loupy C. (2001). L'apport de connaissances linguistiques en recherche 
documentaire. Actes de TALN’2001, Tome 2, pp. 129-133. Tours, France. 

Dolamic L. et Savoy J. (2010). When stopword lists make the difference. Journal 
of the American Society for Information Science and Technology, vol. (61): 
200-203. 

Guelfi N., Pruski C. et Reynaud C. (2007). Les ontologies pour la recherche cibl6e 
d’information sur le Web : une utilisation et extension d’owl pour l’expansion 
de requetes. Actes d’IC’2007 (18*”* joumdes francophones), Grenoble, France. 

Hoang Diem L. T. (2009). Utilisation de ressources extemes dans un modele 
Bay6sien de Recherche d'Infomiation. Application a la recherche d'information 
multilingue avec UMLS. These de Doctorat, Universite de Joseph Fourier, 
Grenoble, France. 

Mandal R., Takenobu T. et Hozumi T. (1998). The Use of WordNet in Information 
Retrieval. Actes de COLING/ACL ’98, pp. 469-477. 

Mooers C.N. (1948). Application of Random Codes to the Gathering of Statistical 
Information. ThSse de Master, Massachusetts Institute of Technology, 
Cambridge, Massachusetts, USA. 


- 162 - 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Moreau F. (2006). Revisiter le couplage traitement automatique des langues et 
recherche d’iiiformation. These de Doctorat, Universite de Rennes 1, Rennes, 
France. 

Moreau F., Claveau V. et Sdbillot P. (2007). Intdgrer plus de connaissances 
linguistiques en recherche d'information peut-il augmenter les performances des 
syst&mes ?. Actes de COR1A ‘07 (4*™ Conference ). 

Moreau, F. et Sdbillot, P. (2005). Contributions des techniques du traitement 
automatique des langues & la recherche d'information. Rapport de recherche n° 
1690, IRISA, Rennes, France. 

Pincemin B. (1999). Construire et utiliser un corpus : le point de vue d’une 
semantique textuelle interpretative. Actes de TALN’99 (Atelier Corpus et TAL : 
pour une riflexion mithodologique), pp. 26-36. 

Smail M. (1998). Vers des syst&mes 6volutifs de recherche d’information : un 6tat 
de l’art. Technique et Science Informatiques, vol. (17): 1193-1222. 

Voorhees E.M. (2005). “Overview of TREC 2004”. Actes de TREC 2004 (13*”* 
Conference ). 


** 163 ^ 




LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


A universal Amazigh keyboard for Latin script 

and Tifinagh 


Paul Anderson 
pJ_anderson@volny.cz 


1. Introduction 

Systems of Amazigh text encoding and corresponding keyboard layouts have 
tended to be narrowly ai me d at specific user communities, because of differences 
in phonology and orthography across Amazigh language variants 1 . 

Keyboard layouts for language variants have therefore lacked orthographic features 
found in other regions. This restricted focus impedes users' experimentation with 
the writing of other Amazigh regional variants and converged literary forms where 
they differ in orthographic features or in script. So far there has been no way to 
type more than a hand ful of Amazigh variants intuitively on any one layout even 
within one script. 

This fragmented development has meant that keyboard driver implementations 
have often lagged behind advances in technology, and have usually failed to take 
into account general keyboard layout design, ergonomy and typing speed, and 
solutions from other Amazigh regions or non-Amazigh languages. Some users 
even preferred to improvise key definitions based on their own understanding, 
which often resulted in mistaken use of lookalike letters and diacritics. 

Keyboard layouts have also failed to provide for Amazigh minority populations 
around the world, and have considered the multilingual context of Amazigh 
language use only locally. 

Several scripts are commonly used to write Amazi gh variants, and even wi thin a 
script there are different orthographies in use. Some orthographies are formal 


I use the term 'language variant* since distinguishing 'dialect' and 'language* is not 
necessary here. 
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standards. In others, some features are obsolete but still in use, some features are 
still disputed, and some features are regional usages or personal initiatives, or are 
required only for writing more phonetically. Complete descriptions of phonology 
and orthographies are often difficult to find. It is therefore complex to determine, 
for each script, a sufficient and practical superset of features for writing a large set 
of language variants so that keyboard layouts can be harmonised. 

This project began because I was creating a Kabyle dictionary document for my 
own use and existing Amazigh keyboard layouts did not produce a suitable set of 
letters. 

Keyboard layout design ties in closely with Unicode encoding, fonts, and font 
rendering capabilities of software. To facilitate good design, the project spawned a 
separate but related investigation into the possible ways of encoding Tifinagh text 
based on the existing Tifinagh set in Unicode, and their effectiveness in 
representing different regional Tifinagh repertoires and orthographies. The results 
of the investigation (Anderson, 2010a) were submitted to the Unicode consortium 
and considered by the Technical Committee in late 2010. The investigation also led 
to two of the letters that were presented but deferred in the original Tifinagh 
Unicode proposal (Andries, 2004) being proposed (Anderson, 2010b) and accepted 
into the encoding process by the consortium. 

Quality Amazigh keyboard layouts would allow easy production of well-encoded 
text. Their widespread use, with fonts of equivalent standard, would promote good 
document production without mistaken use of look-alike characters or diacritics, 
and stimulate creative output. Quality layouts would also promote the use of 
Unicode, consistent with other languages, and show a solid base in technology for 
Amazigh, boosting its prestige. 

Further, if all regional keyboards could be used to type converged literary forms of 
Amazigh, there would be no technical barrier to prevent experimentation and 
adoption by potential users. Also, if keyboards could be used to type many regional 
forms, writers of a variant would easily be able to type it correctly even in a place 
that used a different standard orthography. It would be easier to become familiar 
with other variants. 

Freely available keyboard layouts (and fonts) that were reusable across Amazigh 
variants would allow resources to be pooled to achieve high quality more quickly. 
These tools would form a stable foundation for work in other areas of technology 
for the language and in language maintenance. 
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This project's results are intended to fulfil those needs. 

Viewing the scripts and all the varied orthographic solutions within them as writing 
tools to be evaluated and adapted across all Amazigh variants, encourages technical 
evolution of the writing systems, and also creativity in Tifinagh typography. Local 
traditions become simply styles of writing Amazigh, rather than constraints. The 
Tifinagh script and its future belong entirely to writers of Amazi gh. 

2. Aims 


The project targeted typing Northern Amazigh in Latin script across Morocco and 
Algeria, and typing as many major Amazig h variants as possible in vowelled 
T ifina gh (to provide support for the latest orthographic advances). Prioritisation of 
Amazigh variants was by level of representation in modem Amazi gh literature and 
by whether they are currently written in either the Latin script or Tifinagh. Arabic 
script was judged out of scope 2 , as an ordinary Arabic keyboard can be used, and 
Arabic Amazigh orthography is not official or prevalent (though it has significant 
representation in modem literature in Morocco, on Algerian state television and 
some official Algerian websites). 


Here, I use the loose term Northern Amazigh 1 to group language varieties having 
one short vowel and three long vowels, distinguishing them from the 'Tuareg' 
varieties with their richer vowel repertoire, while recognising that varieties such as 
Siwi and Ghadamsi evade these categories. 


As well as local Amazi gh variants, the project considered Northern Amazigh as a 
whole, targeting the superset of orthographic features needed for both beam's 
standard Amazigh and possible future converged forms. Similarly, Tuareg was 
considered as a whole. The project also examined the extent to which 
orthographies and text encoding could be shared across all Amazigh variants. 

The Latin style used in Algeria for Tuareg transcription was a priority, to cover 
Algerian needs also for Tuareg. Another priority was to include experimental 
features to allow a Latin transcription even more consistent with Northern 
Amazigh orthography. Support for West African-style Latin script for Tuareg was 
only a secondary aim because the Tuareg zone has Amazigh variants as recognised 


Versions of the project's Latin and Tifinagh layouts adapted to match Arabic 
keytops might however be a useful future development for those used to Arabic keyboards 
or Arabic Amazi gh orthography. 
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national languages and there is official support for them in Latin script (but not for 
Tifinagh)- Provision for typing Tuareg Tifinagh in classical style with limited 
vowel marking and with ligatures was similarly desirable but non-essential. 

Other Amazigh variants were to be covered for Latin and Tifinagh to the extent 
that information was available, but not necessarily for typing intuitively (letters 
could be fitted in ad hoc), and for transcription rather than practical use where there 
was no local La tin or Tifinagh writing tradition. 

The project aimed to provide drivers for keyboard arrangements covering the 
writing of the targeted Amazigh variants in Tifinagh and Latin. Each arrangement, 
for a set of variants, was to enable a complete set of orthographic features for a 
script - hence 'universal' - while remaining intuitive for typing its supported 
variants. 

If possible the letters were to be laid out similarly for different regions and scripts, 
so that users could type different regional forms, in either Latin or T ifinagh, 
without confusion, but with the Tifinagh layout re maining natural for Tifinagh and 
file Latin layout natural for Latin. The ideal was a single arrangement per script 
sufficient for typing all targeted Amazigh variants, and intuitive enough to be 
preferred for that script by users. 

One secondary aim was provision of obsolete features, to encourage users to adopt 
the new keyboard layouts and learn to bring their writing up-to-date. Another aim 
was to provide the ability to mix non-Amazigh languages. Another was to ensure 
that keyboard driver installation provides both Latin and Tifinagh capability 
together, for widest usability and to make it easy for Latin script users to try typing 
Tifinagh. 

The layouts were to target primarily the French AZERTY physical keyboard found 
across North Africa, but also to contain intuitive adaptations for other physical 
keyboards used in countries outside Africa with significant Amazigh populations. 
All adaptations were to have equivalent Amazigh capabilities, so that any 
supported orthography could be typed on any adaptation. 

Compatibility with bream's Tifinagh keyboard was a priority as an established 
standard. 

Windows and Linux were to be the initial target platforms, in that order. Windows 
install ations are widespread and fami liar to users, and were the primary target. 
Linux is easy to contribute to, free, known in North Africa, and likely to grow in 
use there as technical knowledge of it increases, so it was the secondary target. 
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Apple is significant in publishing, and in mobile devices. Consideration of 
implementations on Apple products was left to future work. 


3. Method 

My approach was to look at the phonology across the language variants, and then 
find a minimum set of orthographic features in the Latin and Tifinagh scripts that 
constituted a consistent practical writing system across language variants in each 
script (with helpful written communication from Maarten Kossmann, Leiden 
University ; Lameen Souag, SOAS, University of London). I supplemented these 
Latin and Tifinagh character sets with additional features needed for regional 
orthographies where they could not be encoded in the shared way, as well as 
features for explicit phonetic writing, and obsolete, rare and disputed features. 

For Tuareg Tifinagh the main priority was given to vowelled Tuareg neo-Tifinagh I * 3 
orthography as the most up-to-date orthography. Several possible vowelling 
techniques (Elghamis, 2004 ; Louali, 1993 ; Issouf, 2007), none of which has 
achieved prevalence, had to be prioritised for support. The technique of the 
Association for the Promotion of T ifina gh , Niger (APT) was consistent with 
Northern Amazigh's marking of vowels, so it could be used together with any 
Tifinagh repertoire. Also, its extra letters, derived from traditional vowel letters 
(Amessalamine Ahme d, APT, written communication ; Elghamis, 2010), were 
graphically simple. Other techniques, while sometimes possible to encode in 
existing Unicode, would need a different keyboard layout, or special fonts to 
emulate the combinations of letters and diacritics (not good practice, but a possible 
temporary arrangement). SIL International's T ifinagh vowelling system, for 
example, was not consistent with Northern Amazigh practice, and though it could 
arguably be written in current Unicode after the addition of one APT letter, it 
would need a different keyboard layout to be typed practically (C. Grandouiller, L. 
Priest, J. Coblentz, SIL International, written communication). 

Traditional Tifinagh styles with limited or no vowelling were to be supported too if 
possible, with traditional ligatures, as well as Tifinagh-specific punctuation. 


I use the term 'neo-Tifinagh' to mean recent extended adaptations of Tifinagh with 

new and modified letters ; ’Northern' repertoires introduced from scratch, with letters from 

several historical sources, and 'Tuareg' repertoires more closely based on existing regional 
practice. 
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Phonetic features such as marking of Tuareg vowel nasalisation and consonant 
palatalisation were another secondary priority. 

I then mapped this set of features onto Unicode. For Tifinagh, this required the 
addition of two APT letters needed for Tuareg’s richer vowel repertoire, 
representing the Tuareg long vowels e and o, to the Unicode character set (they 
have been accepted for inclusion). Unicode's Tifinagh Joiner character was to be 
typable on the keyboard for generation of ligatures, as well as the Tifinagh 
Separator punctuation character. 

The original encoding of the T ifina gh script in Unicode (Andries, 2004) was a 
major step forward for the script. However, Unicode has still not been adopted for 
Tifinagh in some regions where regional letter sets were incompletely encoded, or 
where font technology was inadequate until recently for rendering text correctly. 

Analysis of the Ti fina gh script encoding in Unicode (Anderson, 2010a) resulted in 
two possible ways of thinking about and using Unicode for Tifinagh. One was 
glyph-based, where each variant glyph is allocated a code point, with the result that 
each regional Amazigh variant would need different optimised tools for the same 
purpose. The other was letter-based, where variations in the symbol used to write a 
sound are left to the font and a smaller set of code points is used. The letter-based 
principle was proposed early in the original Tifinagh discussions (Everson, 1998) 
but has been diluted since by addition of code points for glyph variants. 

The analysis concluded that glyph-based encoding was insufficient to encode 
Amazigh orthographic variants side by side in the same font, and would require 
further additions in any case. The letter-based encoding, by contrast, would already 
be near-complete. It would allow Amazigh variants to be encoded for Tifinagh 
with the same small shared set of code points, meaning that they could be typed 
using the same keyboard layout - and that any Tifinagh font could render different 
Amazigh variants in a consistent style. According to the Unicode technical 
committee, there is no technical objection to a letter-based interpretation and how 
the script is used in Unicode is up to the co mmuni ty. 

The code point set to be generated by this single Tifinagh keyboard layout was 
hosen so that the standard reference glyphs shown by generic fonts would all 
follow Ircam's quality criteria for legibility (Ameur et al., 2006 ; Bouhjar, 2004), 
and the subset for the Moroccan alphabet would appear as Ircam’s letter forms. 
This implies a change of encoding for Tuareg. Where the Tuareg letter form and 
the equivalent Ircam one differ, the Ircam letter's code point is used - coding letters 
by equivalence rather than visual appearance. 
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For the La tin script, the Latin rather than Greek form of gamma was chosen, as it 
can not be contused with y, has matching lower and upper case forms, and is 
becoming prevalent on the Internet (Brugnatelli, 2002). Similarly, the Latin form of 
open e was chosen rather than die Greek epsilon and sigma. The Greek forms were 
given reduced priority as obsolete but were retained for their users and also as 
calligraphic alternatives. 

The letter representing b (spirant V) was to be made easy to type, if possible, for 
both Latin and Tifinagh. It might be a viable alternative to V for distinguishing b' 
from its spirant in writing for some proponents of this distinction in Kabylie, 
Algeria. Writing *b’ would preserve orthographic coherence with other language 
variants. 

Extra letters and punctuation were to be provided for occasional non-Amazigh 
language words in multilingual environments. To find this set, the main countries 
with Amazigh minorities were determined (including West Africa), and the 
national languages determined. The writing systems were then examined for 
features required (partly by examining keyboards existing for them), and the 
countries' physical keyboards were targeted for layout adaptations. Transcription of 
Arabic, especially Daija Arabic, was desirable, for the same purpose. 

The next step, for each script, was the design of keyboard layouts for typing the set 
of orthographic features identified. Ergonomic considerations such as touch typing 
were taken into account. Prioritisation was needed in order to fit all the necessary 
letters and symbols into the limited space. Lower case letters and common 
punctuation were made the easiest to type, followed by capital letters, rarer letters 
and diacritics, then common symbols for programming, and finally rarer symbols. 
Letters were arranged by sound and shape similarity, using techniques similar to 
keyboards for other languages with similar requirements (such as multiple 
diacritics). The aim was to allow typing with as few keypresses as possible, as 
intuitively as possible. The keyboard was to produce correct Unicode sequences. 

The AZERTY layouts were to form a simple learning path from the French 
AZERTY keyboard. Also, Amazi gh functions were to be duplicated to use the 
same keys as existing Amazigh keyboards in common use, where possible. 
Obsolete orthographic features were to be harder to access than modem 
equivalents, though in intuitive positions if commonly used. These measures were 
to avoid confusing users and to maint ain their productivity. 
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Bilingual Amazigh-French versions of the keyboard layouts were designed as a 
handy utility for users who frequently mix languages, or who prefer to adapt 
gradually to typing Amazigh by using a layout very close to what they are used to. 

The keyboard layouts specific for Amazigh had additional design considerations. 
They were designed to be implemented cross-platform, following the constraints of 
Linux keyboard mappings and X input methods. Also, the layouts were to be first 
prototypes for future standard extensions to operating systems, or even for future 
inclusion as standard, for easy availability. For this reason they were designed to be 
adaptable for standards and future trends, for example by splitting Latin and 
Tifinagh into separate drivers, or by using Unicode combining diacritics instead of 
using deadkeys, or by moving secondary letters and diacritics to a separate layer 
(as in the Canadian Multilingual Standard keyboard and ISO/IEC 9995 - either the 
existing European-style secondary layer, or a new, African one, depending on the 
keyboard's region). 

All layouts were designed to function whether installed on the French locale, or on 
future Amazigh locales (to obtain suitable spellchecking, autocorrection and other 
tools). 

Physical keyboards commonly available in North Africa often lack a o key or 
have the o key or the * key moved to various locations. The layout design took 
this into account. 

After design, the layouts were created for Microsoft Windows using Microsoft 
Keyboard Layout Creator (MSKLC) 1.4. 

Any keyboard features made necessary by technical limitations of Windows, 
MSKLC or Microsoft Word were designed not to disturb the overall arrangement 
of keys. 

For the forseeable future, until Amazigh layouts are bundled as standard with 
operating systems, layouts will be downloaded by users or installed from media. To 
ensure that Latin and T ifinag h capabilities are always installed together, they were 
implemented in the same keyboard layout, as MSKLC generates the installer 
automatically. 

Prototype OpenType T ifinagh fonts (based on Hapax Berbere, with thanks to 
Patrick Andries) were created with fontforge under Linux, then additional tables 
were added with the Microsoft VOLT tool. Existing frcam fonts remained 
compatible with the project's keyboard layouts but lacked non-Moroccan features, 
for example for writing Tuareg. 
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For each regional profile of keyboard use, the prototype fonts were used to check 
that existing font technology could give the correct regional appearance to the 
shared encoding, including all orthographic features. Software support was tested 
with MS Notepad, MS Wordpad, MS Word 2007, OpenOffice, and MS Word 2010 
for advanced font features, on MS Windows XP service packs 2 and 3 and MS 
Windows 7. 

Research about phonology and orthographies was examined, along with examples 
of literature, web sites, signage, and printed materials, as well as feedback on 
usability from users (special thanks to Kamal Bouamara, Bejaia University). This 
was done in iterations, with releases on the internet at each stage. 

4. Results 

The project has produced a set of keyboard layouts, currently available for 
Windows, finely downloadable from http://www.akufi.org/ . For the French 
AZERTY keyboard, there are adaptations for different levels of user aptitude - the 
Amazigh-centric layout (figs, la, 2a), and the Amazigh/French bilingual layout 
with minimal changes from standard French AZERTY (figs, lb, 2b). There are 
adaptations of the Amazigh-centric layout suitable for several countries' physical 
keyboards, to keep letters and major punctuation in intuitive positions. 

Current implementations have both Latin and Tifinagh in one driver, with the mode 
switched by Caps Lock (so capital letters are accessed only via Shift). Two 
versions of each driver are available, one defaulting to Latin and the other to 
T ifinagh. Regions can use the version that defaults to their official or prevailing 
script. 

Diacritics are added in Latin mode by deadkey and in Tifinagh mode by typing 
Unicode combining diacritics after a letter. 

The non-breaking hyphen is useful for ensuring that hyphenated constructions such 
as Kabyle 'iman-is' are never split between lines of text, and it is easy to type. 

Tifinagh support for Tuareg is based on appropriate font rendering of a small set of 
code points in Unicode based on the letters for the Ircam alphabet, not on the 
Tuareg variant letters. 

For users with legacy systems with poor rendering of advanced font features, 
temporary extended keyboard versions were created for typing presentation forms 
explicitly using the Private Use Area of fonts. 

There is a provisional set of scientific characters available via AltGr+X. 
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An academic transcription feature gives users a quick alternative option to 
switching to a dedicated layout. It is a provisional and temporary utility, present as 
an extended version of the facilities of the INALCO ‘unicber* keyboard, and not 
intended for future standard layouts. 

Being essentially configuration files, automatically compiled into self-contained 
code modules, the layouts were licensed with the Creative Commons licence. The 
terms chosen require only acknowledgement of the author, so that use of the work 
is encouraged. 
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Figure la : Amazigh-centric layout - Tifmagh 
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Figure lb*: Bilingual Amazigh/Freneh layout - Tifmagh 


Diagrams created with a generic template from Wikipedia (under Creative 
Commons BY-SA 3.0) 
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Figure 2a* : Amazigh -centric layout - Latin 
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Figure 2b : Bilingual Amazigh/French layout - Latin 

5. Discussion 


For Northern Amazi gh : Moroccan Tarifit, Tamazight and Tachelhit, Algerian 
Tacenwit (Bouridj and Nouh, 2009), Kabyle, and Chaoui are supported. 

For Tuareg : The forms of Algeria, Niger, and Mali are supported, though the only 
Tuareg neo-Tifinagh vowel system supported in a Unicode-compliant way is that 
of APT Niger. Writing of extra phonetic features in Tifinagh is partially supported 
(using substitute letters and techniques such as the Unicode private use area), with 
improvements left to future work. 

The Tuareg Tifinagh orthography for q and ji is still unstable (Elghamis, 2010). 
The candidate letters are supported, and can be typed in different Unicode forms. 
Refinement is left to future work. Also, dj-like sounds are documented in Tuareg 


Diagrams created with a generic template from Wikipedia (under Creative 
Commons BY-SA 3.0) 
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(e.g. Sudlow, 2001 ; Heath, 2005), and support for them may need to be added if 
existing mechanisms are insufficient. 

The West African Latin orthographies of Tuareg are supported, including letters 
whose current use is uncertain. 

Full analysis of Algerian oasis forms, Libyan and Egyptian forms was left to future 
work, but a first effort at support for Mozabite (Delheure, 1984), Gourara Amazigh 
(Bellil, 2006), Nefusi, and Siwi (Christfried Naumann, Institute for African 
Studies, Leipzig University, written communication), has been made. 

Transcription of Zenaga, Tunisian Amazi gh forms, and Ghadamsi remains to be 
assessed. Burkina Faso-style Latin orthography for Tuareg was left to further work 
in the absence of definitive Unicode information for emphatic consonants, but the 
layouts have suitable places available. 

In future, on a machine installed in Tifinagh, in order to see their preferred 
Tifinagh letters, sers would have to set the system font. Currently, for use in 
applications only, users need to set the font used by their applications, for example 
for chat. For this reason the reference glyphs of the Ircam set, displayed as the 
default, are likely to become well known for use in informatics. Commonly used 
web sites such as for email do not generally allow font changes and not all 
browsers allow overrides. Confusion is unlikely because the Ircam equivalents of 
Tuareg letters do not resemble other Tuareg letters. 

The layout for a script when it is non-default (i.e. accessed by pressing Caps Lock) 
has some small differences because of technical limitations in Windows, such as 
having to add a diacritic to a letter after typing it, or fin din g a combined letter and 
diacritic in a different key position. These differences (marked with parentheses on 
figs, la and lb) have been made as unobtrusive as possible. 

The Latin layout is not exactly symmetrical with the Tifinagh layout because the 
two scripts have slightly different arrangements which are natural to them 
However, when a script is not the default and Caps Lock is used to access it, this 
secondary layout is slightly biased to be more intuitive for users of the default 
script. These differences are seen with g, g w and k w , for example. A position on the 
'j' key is intuitive for a Moroccan Tifinagh user because of the use of the Tifinagh 
equivalent of 'dj* or 'jj 1 for 'g' in Moroccan T ifina gh orthography (Ameur et al., 
2006 ; Ameur, 2004). In future the Tifinagh letter YADJ may be duplicated at 
AltGrfg and the Latin letter g duplicated on AltGi+j for better symmetry. 
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Support for the Ircam Tifinagh keyboard's use of the 'o', *p' and 'v' keys also 
disturbs the Latin/Tifmagh symmetry, but these letters are rare in Northern 
Amazigh and the equivalent Tifinagh letters are easily accessible via shift. For 
Tuareg, 'o' is more common, but both T ifinagh letter YE and Tifinagh letter YO are 
accessed via shift so it becomes natural to the user. 

Since Tifinagh fonts can be reused between language variants, typographic 
creativity is opened up. Users can choose whether to use filled or closed dots, and 
whether sequences of Tifinagh letters YAL and YAN are disambiguated by linking 
lines in the letter forms, Moroccan-style, or by leaning or offsetting the letters 
(Algerian and Tuareg-style). Future development of cursive fonts, perhaps based 
on the work of Tuareg Tifinagh calligraphers, would have maximum utility. For 
orthographies other than classical Tuareg, fonts can provide ligatures purely for 
cosmetic effect, and the keyboard layouts allow control of ligature formation with 
the Zero Width Joiner character. 

With operating system and software support, correct Unicode properties, and 
suitable fonts, Tifinagh could be written vertically like Japanese, or right-to-left, 
for typographic effect. 

Historical Tifinagh or Libyco-Berber letters, excluded from consideration by the 
project, could be mapped to their equivalent letters in the code point set to the 
extent that the phonology allows, typed with a normal keyboard layout and 
rendered by special fonts. 

That calligraphic Tuareg-style and historical fonts for Mozabite have been 
requested by one user of the project's keyboards shows the strength of the project's 
approach. 

6. Conclusions 

The project is unusual because its analysis was of both Latin and T ifina gh across 
each Amazi gh variant. Also, the range of Amazigh variants included was 
international, not national or regional as had been the case for keyboards 
previously, hi addition to phonological and orthographic descriptions, many 
examples of written language were studied for their typography. 

The resulting keyboard layouts are 'universal' in that they can be used to type a 
wide range of Amazigh variants as well as converged Amazigh literary forms, all 
still with an intuitive, non-arbitrary arrangement of keys. Amazigh variants that 
had no previous support with Latin and Tifinagh can be transcribed. The 
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universality has a limitation - that only the APT 4 technique of Tuareg vowel 
marking is supported. This does not prevent encoding of other vowel mech anisms 
in Unicode. 

The layouts are designed for ergonomy, typing speed and quality Unicode 
production. There are adaptations, all equivalent, for writers of Amazigh living or 
travelling in different countries. Previous tools concentrated on North Africa and 
France. There is also a bilingual alternative, closer in layout to the French 
AZERTY keyboard, for users preferring fewer changes to their customary layout or 
who frequently mix French and Amazigh. 

Tifinagh and Latin layouts have been harmonised to encourage use of Tifinagh. 
This resulted in a Tifinagh-default version suitable for Morocco and an equivalent 
Latin-default version suitable for Algeria. From a Moroccan user's point of view 
the Tifinagh-default version extends team's Tifinagh keyboard with international 
facilities (focusing primarily on other Amazigh language variants), rather like how 
the US international keyboard extends the US layout. 

The layouts are intended for common use for Northern Amazigh in Latin and 
T ifinagh, and for common use typing Tifinagh for Tuareg and for transcribing 
Tuareg in Algerian Latin script. The West African Latin support is for Tuareg 
visitors to the north, and to help northern learners of Tuareg. 

The keyboard layouts resulting from the project make it easy to build T ifinagh 
fonts independently of Amazigh language variants, opening up creative 
possibilities in typography. Fonts can use any coherent selection of Northern or 
Tuareg letters, perhaps suited to a particular region, and with any selection of the 
available typographical innovations. A set of Algerian fonts is under development 
to demonstrate this. Even if future practice moves away from the project's 
interpretation of T ifinag h in Unicode, the project will have enabled better 
understanding of Amazigh orthography and encouraged better typography. 

By clarifying areas of Amazigh phonology and orthography, examining Latin and 
T ifina gh scripts side by side, and encouraging tool reuse across Amazigh variants, 
this work could contribute to future developments in Amazigh orthography and 
keyboard design. Examples of future work could be mobile phone keypad layouts 
like the Tifinagh keypad of the Sony Ericsson / Maroc Telecom J1 10i/J120i. 


Association for the Promotion of Tifinagh, Agadez, Niger 
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Si tous les chemins menent a Rome, ils ne se 
valent pas tous. Le probleme d'acces lexical 
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Resume 

Tout le monde a dej& rencontry le probiyme suivant : on cherche un mot (ou le nom 
d’une personne) que Ton connalt, sans etre en mesure d’y accyder & temps. Les 
travaux des psychologues ont montry que les personnes se trouvant dans cet ytat 
savent enormement de choses sur le mot recherche (sens, nombre de syllabes, etc.), 
et que les mots avec lequel ils le confondent lui ressemblent estrangement (lettre ou 
son initial, categorie syntaxique, champ semantique, etc.). 

L’objectif de notre travail est de ryaliser un programme tirant bynyfice de cet ytat 
de fait pour assister un locuteur ou rydacteur k (re)trouver le mot qu’il a sur le bout 
de la langue. A cette fin, nous pryvoyons d’aj outer k un dictionnaire yiectronique 
existant un index dissociation (collocations rencontryes dans un grand corpus). 
Autrement dit, nous proposons de construire un dictionnaire analogue k celui des 
ytres humains, qui, outre les informations conventionnelles (dyfinition, forme 
ecrite, informations grammaticales) contiendrait des liens (associations), 
permettant de naviguer entre les idees (concepts) et leurs expressions (mots). Un tel 
dictionnaire permettrait done l’acces a l’infoimation recherchee soit par la forme 
(lexicale : analyse), soit par le sens (concepts : production), soit par les deux. 
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1 . Le myst^re de la production verbale 

Les etres humains sont de vrais prodiges en mature de parole (production de 
langage). Non seulement ils sont capables de trouver rapidement les formes 
ad6quates pour exprimer leurs id6es sous forme de mots et de phrases, 1 mais, ils 
sont capables de se livrer a cet exercice pendant des heures, sans jamais se fatiguer. 
Pourtant, produire du langage, notamment a l’oral (discours spontane en temps 
reel) est une veritable gageure. Jugez-en vous meme. Pour pouvoir s’ exprimer a un 
debit normal un locuteur doit pouvoir localiser dans sa mdmoire le mot exprimant 
sa pensee, 2 1’ adapter morpbologiquement, l’inserer au bon endroit de la phrase, tout 
en continuant a planifier l’idee suivante, et tout ceci en tres peu de temps. Si jamais 
une de ces 6 tapes tarde ou 6choue, on assiste & des lapsus, bafouillages, sons de 
remplissage, ou, des pauses plus ou moins prononcdes, pouvant aller jusqu’au 
silence total. 

Vu le nombre de contraintes et le manque de temps, il est etonnant de voir le peu 
de fautes, notamment au niveau lexical (recouvrement du sens par des mots). En 
effet, si nos discours oraux sont truffes de fautes et d’imperfections de toutes sortes 
(hesitations, faux departs, pauses), ces demieres concement rarement le niveau 
lexical : on ne se trompe sur les mots qu’environ une fois sur mille (Rossi et 
Peter-Defare, 1998). Comment est-ce possible ? 

2. Explication possible, concernant une des titches principals 
: l’acc&s lexical 

La reponse & la question posee reside tres vraisemblablement dans 1’ organisation 
de notre dictionnaire mental (Aitchinson, 2003) et dans l’efficacite des processus 


ul est tout a fait courant de produire spontanement un discours de 150-200 mots par 
minute, debit qu’on arrive £ doubler en cas de besom. 

2 Ce qui veut dire qu’on doit chercher dans un stock enonne (les chiffres avancds varient 
selon les auteurs entre 30 a 60 000 mots, voire plus) un element particulier. C’est la 
fameuse aiguille dans une meule de foin. II est clair que le nombre avancd est 
probldmatique pour diverses raisons : definition du terme «mot», connaissances 
actives/passives ; polysemie des mots, etc. Neanmoins, si ce chi fire vous parait eleve, notez 
que le “Lexique anglais/franfais des sports olympiques”, destine aux joumalistes couvrant 
les jeux de Sidney en l’an 2000, contenait ddj£ presque 14 000 mots, avec pas moins de 
1000 entrees rien que pour les sports aquatiques (rubrique natation). II n’y a aucun doute, la 
performance reste impressionnante, equivalant £ la consultation d’un dictionnaire comme 
Le Grand Robert trois fois par seconde, et ceci pendant plusieurs heures. 
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de recherche misent au point lors de notre existence et lors de notre contact avec la 
langue. Vu cette efficacite remarquable, il parait tout a fait indique, voire 
souhaitable de s’en inspirer et de considerer le cerveau, — sa structure et son 
fonctionnement — comme modele, susceptible de nous aider a ameliorer des 
bgquilles cognitives que sont les dictionnaires 61ectroniques pour assister des etres 
humains k trouver le mot rest6 bloqu6 sur le bout de leur langue (Brown et Me 
Neill, 1966). Car, si nous commettons peu de fautes, il nous arrive ndanmoins de ne 
pas pouvoir localiser it temps un terme, et, dans ce cas, il est bien utile de pouvoir 
consulter une ressource exteme, susceptible de nous r6v61er rapidement (en peu 
d’6tapes) l’objet recherch6. Avant de presenter cette solution (travail en cours), 
essayons de voir pourquoi nous echouons de temps en temps, n’arrivant pas a 
produire ce mot, en apparence a notre portee, mais restant finalement bloque sur le 
bout de notre langue. Pour mieux comprendre ce qui se passe nous allons nous 
toumer un instant vers des travaux faits par des psychologies. 

3. La production du langage vue par des psychologues 

Pour comprendre le probleme d’acces lexical, il faut le situer dans le cadre de sa 
tache normale : la production de phrases. 

Produire du langage consiste en gros a faire trois choses: concevoir un message, le 
traduire en langue, conummiquer ce resultat sous forme graphique ou orale. C’est 
precisement ce qu’on retrouve dans la proposition de Garrett (1980, 1991) qui 
est a la base de tous les modeles proposes par des psychologues (Bock, 
1995 ; Fromkin, 1993 ; Levelt 1989, 1993). 3 Il y aura done un conceptualises 
(message), un formulates (structure linguistique) et un synthetiseur de la 
parole (articulation). Meme si l’ordre peut etre bouleverse (retroaction d’un 
niveau inferieur vers le niveau superieur), l’ordre naturel est bien celui 
indique : on commence par les idees, pour terminer par la forme linguistique 
(sons, graphemes). A noter, le passage des idees a la forme n’est pas direct, 
il est medite par la langue, notamment le choix lexical. C’est d’ailleurs 
surtout ce module intermediate qui a retenu 1’ attention de Garrett, car les 
traitements linguistiques laissent des traces (hdsitations, erreurs). Ceci 6tant, 
il s’ est done appuy6 sur une grande base de donn6es d’ erreurs pour 
construire son module. 


3 A noter, que le module utilisd en TAL est un peu different. 11 a 6t6 con$u par des 
linguistes-infonnaticiens (Reiter et Dale, 2000). 
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La tache du conceptualiseur consiste a elaborer un message 
(conceptualisation) afin de r6aliser un but ou une intention de 
communication. Cette structure ou forme de representation est conceptuelle. 
C’est sur elle que s’effectueront les operations linguistiques, pr£cisant ainsi 
progressivement une structure qui a ce stade est sous specifiee. 4 

Le formulateur prend en charge des aspects fonctionnels, positionnels 
et phonologiques des elements utilises pour communiquer le message. 

Le niveau fonctionnel est responsable de Yencodage grammatical. 
C’est-a-dire, les concepts seront remplaces par des mots, ou plus 
precisement par des lemmes, auxquels on assigne le rdle qu’ils doivent jouer 
au sein de la phrase. Les lemmes ne sont pas encore des mots au sens 
classique du terme. Ils manquent d’ informations, notamment 
phonologiques. Ce sont des representations abstraites, contenant des 
informations semantiques et syntaxiques : categorie lexicale (nom, verbe, 
adjectif, etc .), function syntaxique (sujet, objet, etc.), type de structure dont 
le lemme peut faire partie (syntagme nominal, syntagme verbal, etc.), ainsi 
que certains traits ou caractdristiques specifiques a la langue (ex. le genre). 
Ayant recupere des lemmes auxquels on a assigne un role syntaxique on 
produit une representation Jbnctionnelle de la phrase. 

A l^tape suivante ( encodage phonologique), on determine la representation 
positionnelle , c’est-A-dire, on recupere la forme phonologique, les 
caracteristiques segmentales et prosodiques des lemmes (qui, du coup 
deviennent des lexemes) et on specifie l’ordre des mots en les integrant dans la 
stmcture specifiee a l’etape precedente. C’est ici que seront inseres les 
morphemes grammaticaux (ex. determinants, flexions de 
nombre/genre/temps, prepositions, etc.) et que seront effectuees les 
operations morphologiques. La structure issue de ce stade specifie done la 
position et l’articulation de l’ensemble des elements de la phrase (mots 


4 Qu’il en soit ains i est lid A des contraintes cognitives (Zock 1996). Des limites d’espace 
(memoire de travail) et de temps (pression de production, manque de temps) font qu’on 
dvite des engagements forts au ddbut du processus. En effet, si l’on prenait tres tot des 
engagements forts on risquerait de s’enfenner dans des sens uniques, ne pouvant terminer 
une phrase, dont les elements choisis au ddbut se reveleraient incompatibles avec ceux de la 
fin. Autrement dit, on a intdrdt de partir d’une structure sous-spdeifide, coquille 
relativement vide, qu‘on enrichira ensuite au fur et A mesure en fonction des besoins. 
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pleins, mots grammaticaux), flechis et accordes selon les regies de la 
grammaire. La tache du niveau phonologique consiste non seulement a recuperer 
les phonemes et a determiner la prosodie de toute la sequence de mots mais 
egalement de traduire cette forme en un format (gestes phonatoires) susceptible 
d’etre ex£cut£ par l’articulateur. 

L’articulateur doit transformer les symboles du module pr£c£dent en sons, 
a fin d’6voquer chez l’auditeur des id6es correspondantes & celles ayant donn£ 
naissance aux paroles du locuteur. 

4. Les mots pieces toutes faites ou pieces detachees a 
assembler ? 

Si pour un lexicographe les mots sont des entites, liant le sens et la forme, 
modele qui remonte a Saussure, pour un psychologue ce sont des patterns 
distribues dans notre cerveau. Les modeles (Garrett, 1980, Levelt, 1989) et la 
decomposition de mots en lemmes et lexemes est basee sur plusieurs types 
d’observations et d’exp£riences : 1’ analyse d’erreurs, le pMnomdne du ‘mot sur le 
bout de la langue’ (MBL) et la denomination d’ image. 

Ayant analyse de nombreuses erreurs, Garrett (1991) a constate qu’il y 
a deux grandes classes : celles touchant le fond ou le sens (erreurs de 
selection : lion-tigre) et celles touchant la forme (erreurs d’ assemblage : 
d£chiffr er-d6firicher) . Etant donn6 que les deux sont bien distinctes, il en a 
deduit qu’il doit y avoir deux etapes (ou composantes) qui se succedent dans 
le temps pour recuperer et determiner la forme d’un mot : la premiere est 
responsable des aspects semantico-syntaxiques, le lemme, la seconde est 
chargee de recuperer les aspects phonologiques, la forme du mot (lexbne). 

Normalement les etapes de la determination du sens, celle de la forme syntaxique 
et phonologique se suivent l’une apres 1’ autre, mais il peut y avoir des 
dysfonctionnements, resultant en un blocage particulier, nomine ‘mot sur le bout de 
la langue’. On connait le sens, on connait le mot et on en est conscient, pourtant, on 


5 Ainsi on observe des confusions du type semantique ‘(orange/citron) et phonologiques 
(s'epanouir/s’evanouir’, Laurence/Clemence) mais pour ainsi dire jamais, les deux a la fois. 
Ceci dit, deux mots peuvent avoir les deux types de liens (chat, rat), ce qui rend d61icat 
1’ analyse de la cause d’un dventuel dysfonctionnement. Etait-il du i une activation 
sdmantique, phonologique ou les deux ? 
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n’arrive pas a recuperer dans un laps de temps raisonnable la forme 
correspondante. Des etudes sur le MBL ont montre que des locuteurs se trouvant 
dans cet etat peuvent reveler bon nombre de proprietes concemant le mot recherche 
(sens, categorie lexicale, genre grammatical, nombre de syllabes, etc.) sans 
pourtant etre capable de le dSnommer (Brown et McNeill, 1966). Autrement dit, ils 
ont acc6s au lemme, mais ils ne parviennent pas & r6cup6rer le lexeme, la forme 
phonologique correspondante. 

II y a une autre etude plaidant sur la distinction lemme/lexeme. Dans une tache 
consistant a demander aux sujets de nommer une image Schriefers et al. (1990) ont 
etudie les effets qu’un terme (selon qu’il est lie ou non au terme cible) et le 
moment de sa presentation peuvent avoir sur le resultat (acces lexical). 

Les participants devaient d6nommer des images (par exemple, RENARD, 
GOMME, RASOIR) tout en 6coutant des mots distracteurs (lapin, pomme, bianco). 
Ces demiers leurs etaient presentes avant, pendant ou tout juste apres la 
presentation de l'image. Selon la nature du terme distracteur (relation semantique, 
phonologique, ou aucune relation avec le terme cible) et selon le moment de 
presentation (avant/pendant/apres) on observait des effets differents. Un distracteur 
semantique presente avant le debut de l'image produisait une interference 
semantique, tandis quYin terme phonologiquement lie au mot cible avec un effet 
facilitates si, et seulement s’il suivait l’image. On peut done bel et bien concise 
que les mots ne sont pas des entit6s holistiques, mais des structses qu’on precise 
progressivement. Dy a done (au moins) deux niveaux ou deux types d’entit6s, des 
lemmes et des lexemes, les deux 6tant sensibles chacun 4 des informations 
diff£rentes, l’un aux informations s6mantiques et l’autre aux informations 
phonologiques. 

5. Ameliorer la navigation dans les dictionnaires 
£lectroniques en s’inspirant du cerveau. 

Comme nous avons pu voir, la representation des mots dans des dictionnaires et 
dans le cerveau n’est pas la meme. Ce dernier oflfe une serie de caracteristiques, 
interessantes a utiliser (haute connectivite, liens associatifs). Nous utiliserons done 
la metaphore du dictionnaire mental (structure, processus, construction), pour 
montrer comment ce type de modele pourrait nous guider a developper des aides a 
la navigation dans des dictionnaires 61ectroniques. Ces demiers se pretent, h61as, 
toujours assez mal ^ la production, dans la mesure ou ils ne permettent pas 
Paffinement progressif d’une requete, et dans la mesure ou l’on n’a toujours pas 
clarifie en quels termes communiquer le sens, point de depart en production. 
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Contrairement a la lecture on part du sens et non pas de la forme lexicale, celle-ci 

doit justement etre trouvee. 

5J Quelques caracteristiques concemant le dictionnaire mental 

Une des questions qui se pose est de savoir a quoi ressemble (ne serait-ce que 

m6taphoriquement) notre dictionnaire mental. Que savons-nous & l’heure actuelle ? 

Void quelques traits caractdistiques : 

• C’est un r6seau dont les noeuds sont des mots 6 et les liens sont des 
associations liant les deux termes. L’idee remonte a Aristote, et c’est une des 
bases de rassociationisme. Cette intuition a engendre un tres grand nombre de 
travaux, dont WordNet est un des produits les plus aboutis (Miller, 1995). 

• Le r6seau est multidimensionnel et multi-couches. Les diffferents modules 
correspondant en gros aux modules classiques en linguistique informatique : 
sens (abstrait), forme abstraite (forme intermediate), forme concrete (son, 
grapheme). Selon la tache on part du ‘sens’ (production) ou de la ‘forme’ 
(analyse) pour arriver a lcur correspondant : mots, concepts. L’ information 
concemant un mot (sens, forme, son) est done distribute dans le reseau. Pour 
plus de details, voir (Levelt, 1989 ; Levelt et al., 1999 ; Ferrand, 2002). 

• La repartition des noeuds n’est pas uniforme. On remarque comme dans bien 
d’autres domaines (systemes biologiques, reseaux sociaux) que les objets ne 
sont pas repartis de maniere 6 gale. Certains endroits du graphe ont une tres 


6 Cette remarque doit etre nuancee, non seulement parce que le terme ‘mot’ pose un certain 
nombre probldmes, mais aussi parce qu’on ne sait pas de fa^on claire si ^equivalent d’un 
lemme est stocke au niveau des noeuds, ou s’il y a seulement des liens allant vers d’autres 
noeuds, plus 616mentaires (phonemes, graphemes), hens qui doivent etre activ6s pour rendre 
accessible le lemme. Dans ce cas, celui-ci ne serait qu’une cat6gorie abstraite, done bien 
differente de la forme concrete observee dans des dictionnaires habituels ou la forme 
concrete d’un mot apparait k cote de sa definition (sens). 

7 En effet, cette intuition se trouve dtj& chez Aristote (« De memoria et reminiscentia »), 
puis chez des philosophes (Locke, Hume) et physiologistes anglais (James et Stuart Mills), 
des psychobgues (Galton, 1880 ; Freud, 1901 ; Jung & Ricklin, 1906) et des 
psycholinguistes (Deese, 1965; Jenkins, 1970). Enfin, cette id6e est sous-jacente k 
WORDNET (Miller, 1990), aux travaux connexionistes (Stemberger, 1985 ; Dell, 1986), aux 
hypertextes et au web (Bush, 1945 ; Nelson, 1967). Pour des syntheses en 
psycholinguistique voir (Hormann, 1972 ; chapitres 6-10), pour des r6f£rences plus r6centes 
voir (Spitzer, 1999). 
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grande density, ils sont hautement peupl6s (champs semantiques : termes de 
parent^, couleurs, termes de calendrier, etc.), d’autres, en revanche, sont bien 
moins 6toff6s. Les graphes lexicaux ont done des caractfristiques de « petit 
monde » (Schnettler, 2009) : repartition inegale (grappes, dots), chemins 
relativement courts entre les differents elements. Ceci a une portee non 
negligeable pour la navigation. Tout semble accessible via un petit nombre de 
pas (Motter et al. 2002). Ainsi peut-on utiliser un raccourci pour passer d’un 
domaine k un autre, sans transiter foredment via tous les noeuds 
interm6diaires ? (voir figure 2). 



52 Une carte mentale et une boussole lexicale pour assister V orientation dans le 
reseau 

Disposer d’un grand dictionnaire est de pen d’utilite si on ne peut pas acceder 
rapidement i 1’ information souhait£e. Or, e’est souvent le cas en production, dans 
la mesure oh la plupart des dictionnaires ne permettent pas la consultation i partir 
du sens. Pourtant, e’est la situation la plus frdquente pour un r6dacteur. Pour 
combler cette lacune, nous envisageons d’aj outer a un dictionnaire electronique 
existant un index base sur les notions d’ association et des primitives de sens. A la 
difference des dictionnaires traditionnels , ou toute l'information concemant un mot 
est stock6e directement avec cette entree lexicale, les informations relatives aux 
mots sont distribu6es dans le cas du dictionnaire mental (cerveau). C'est d'ailleurs 
pour cette raison qu'on a parfois tant de mal h les rassembler, en temps voulu, pour 
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aboutir a la forme fina le de ce puzzle lexical. Comme des experiences portant sur 
le phdnomdne du « mot sur le bout sur la langue » l’ont bien montre, meme en cas 
d'echec, l'utilisateur salt pratiquement toujours quelque chose concemant le mot 
convoite : sens, origine, mots lies par association, etc. Et c’est de cette information, 
mot disponible k cet instant, dont nous allons nous servir co mme point de depart, 
pour entrer dans un rdseau lexical, — le fait que les iddes, ou les mots les 
exprimant s'dvoquent rdciproquement prouve bien que le dictionnaire mental est un 
rdseau pour avancer, petit & petit, vers le mot recherchd. Pour l’aider k s’orienter 
nous allons done fournir certains outils de navigation, comme une carte (rdseau 
lexical, balisd en terme de liens) et une boussole (index), et nous proposons des 
ponts de taille variable, permettant d’aller du mot source vers le mot cible, mot 
recherche. 

Pour trouver le mot sur bout de la langue il nous faut done une carte mentale et une 
boussole lexicale (Zock et al., 2010). On notera, que s’il y a des mdthodes pour 
calculer le chemin le plus court dans un rdseau, celles-ci sont de peu d’utilitd. Car 
si le systdme connait le point de depart , — il lui est donnd via l’entrde (requdte faite 
par l’utilisateur), — il ne connait pas le point d’arrivee. En revanche, le systeme 
peut nous aider a le trouver, car, avec chaque information regue, il peut nous 
proposer une sdrie de candidats (termes directement associes, termes se trouvant a 
une distance de 1) susceptibles de contenir le mot cible ou un terme permettant de 
s’en approcher. Contrairement au systeme, l’utilisateur (locuteur) saura reconnaitre 
le bon terme lorsqu’il le voit (voir les etudes sur le « bout de la langue. Brown et 
Me Neill, 1966). Auirement dit, mime si ce n’est pas le terme exact, mais 
seulement un terme plus ou moins directement lid, l’utilisateur saura alors lequel 
d’entre eux pointe dans la bonne direction, ou lequel est le plus proche du mot 
recherchd. Supposons qu’on cherche le mot ‘infirmidre’, en dormant en entrde le 
mot ‘hopital’. L’utilisateur saura alors qu’aucun des termes suivants ‘asile, hospice, 
clinique, sanatorium’ n’est la bonne solution. En revanche, la liste ddcrivant des 
employes de I'hdpital (medecin, anesthesiste,...) est susceptible de contenir le 
terme recherche : infirmidre. Il en est ainsi pour ‘infirmerie’. Trouver le mot cible a 
partir d’un mot source quelconque, disponible a ce moment, suppose une carte 
mentale, ddcrivant les differents types de lien entre les objets du monde 
(connaissance encyclopedique). Comment construire une telle carte et comment s’y 
orienter grace a une boussole lexicale sera l’objet de notre expose. 
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6. Conclusions 

Un dictionnaire est un composant fondamental de tout systeme de traitement de la 
langue, sa quality dependant des informations stock6es et des moyens offerts pour 
y acc6der. Or, les strategies d’acc^s d6pendront de nombreux facteurs : 
connaissances disponibles lors de la consultation (sens, mots r61i6s au mot cible, 
etc.), tache (analyse vs. production) et nature du syst&me de traitement (humain, 
machine). En analyse, on part des mots pour chercher le sens, tandis qu’en 
production, on part des concepts pour trouver les mots correspondants. Et si une 
machine trouve generalement 1’ information stockee (acces lexical en generation 
par une approche TAL ( Stede, 1999), un etre h umain ne saura pas forcement faire 
autant : trop nombreuses et trop differentes sont les informations a traiter en si peu 
de temps (discours spontane). 

II y a au moins trois types de dictionnaires : les dictionnaires papiers, les 
dictionnaires 61ectroniques, et les dictionnaires mentaux (cerveau). Ces demiers 
offrent certaines caracteristiques particulierement interessantes pour la production. 
La multiplicite de points de vue pour organiser le lexique (indexation selon 
differents points de vue ou de niveaux : sens, forme, son) offre du coup une 
souplesse d’acces inegalee. 

Contrairement aux dictionnaires organises de manidre rigide par ordre alphabdtique 
ou par inclusion (ordre hi6rarchique), les dictionnaires mentaux sont des r6seaux 
dont les termes sont hautement connects, du coup tout peut etre accM6 & partir de 
n’importe quel point du rfiseau, et les liens assurant cette connexion sont les roles 
que les termes jouent dans la vie rfielle. C’est pr6cis6ment cela qui nous permet 
d'acceder a l'information recherchee. 

De ce fait le dictionnaire mental constitue un excellent modele en termes de 
stockage et d'acces a l'information. Si les dictionnaires traditionnels sont passifs et 
assez limitds en termes d'acc&s, les dictionnaires 61ectroniques ont un potentiel 
considerable, susceptibles de presenter rapidement et sous des formes diverses 
l'information recherchee. Les idees presentees ici sont une premiere tentative allant 
dans ce sens, mais il est clair, que beaucoup de travail reste encore h faire, 
notamment au niveau des liens (associations). 
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Iajulj j aJIa. ^ Lai ^^aIa^a*' J a A-I^J&ja 4^1S aJjljll ”Li_yi "<> V-V 

1 . 11 L L ^ A Li5l ^ \!a i ^ c- Lijl w ' La ‘ e. }■*. j i L4 _jLA_j La 1 ' ^ t ^I aa a A ■' 

bli 4 ^j^ a\1 \ JLlIaII l^o^ill l a ** ^\\ ^9 I jj t - \\ *KU ^9 a al^ Jo 

bbiuul AA^. V (JjtilLj Jh p,LJl Jjlj La jl Ja JLj A-^J^k^a L-ilill A ^1 ^r. J^£l La 

JjjujLa ±M\ a^Iao cbj^^A jfb 11]^ 4 j^lj^iil ^_jjj ^a19 

fil AntVl ^ja^aL d^Ltll^j 4^JjVl aIa^H tlia-ill JSj Jj^aI ‘n a^ ^I^a£^ a\\ Ajj-iuILi 

Jjlj A a KU &1& ^yll ,, ^ M AiLkJaj ^jj V* 11a Ja l " A ^lo jAjj La ^Jo ^)9 jJJ V ^jUl 

La lllj (J-^jIaaIL (_j-^Lall (-JLUaJI ^9 A_lo dlj\£ 11]^ A a^^li AJI Jjj 

1 alU a ^^aJl JI £,bll <■ al - ^ ji9 t JjVl A_1 a^]1 AIa ^.LajujVI (_J-u j-aL A aK\I ^Jo ^jAjlII Ji 

3^ jill U^1 J AaKII jo L^JIj V’ J^Vl "-1" (JUJIj "j" J^l lSa^j (3 
<Jajj Vj AjLJ V)j <_>L^ J o^jiL Ul£ 11) JjA^Jb (jUlJl 

J IAA\ jo L^kJ! JLj JjVl fiUl c q.w^ t ,, JI M -j I^jj ^1 CjUKJI AiU ^ (4 

blilail ^1) M Jl f ’ ji Ia^>aj ♦’J' 1 Jj£j ji j£aj ^1 olA ji ^jju ilgi ^kj Ilia ^L^Vl 
tlA ^ 4 A jl i ^A Aojllil ji ^ t^(JV<J *^aV1 LS^ (-3^^ O 11 

4 ^.l <ftn>Vl ^_jjj ^ qLs ^9 ^dljll Ja JA^-lll (_JJ L Q ‘^' N - ^ 

AjI^J ^9 L^JO dl^lll Jj J a LAAi^^J At J m l1j M AJa ^ jaIaII A aK ^ 

t ** ** ^aLiil l L> ij Loa 4*'^^ ^Jl ^dj** (_]j)'* > ~ 1 *- ** v j) p. I^jlu^ 4 ^,LajaV 1 ^jA^ab ^9 ^ja^I 

^lo t ^ ^ jlil -JLJ1 cIi^JaII ^al^. AJL^, ^9 ^ ^.LajjjVI ^JA^ob ^9 a A \<\1 £,1a Jo ^ 

plj AiLja)^ a aKII Ja lLliJa^I ^juJI Al^V l * a ‘^ <v 4A_pll]lj (^^Vl J^jL>U ^a!^ ( di]l ^.IaaaVI 

4 &IaaaV1 (_>JJ ^aL 9 l^lo <3^3 L^_Ia ^JLU La] aJo^ja 

Jo (Jll V (^jA^l^ill Axj A ^KU Ja La 11] L>aA Ao j^joia A_AaO L)J^J ^6 

pLill & 1 a jli < 2 ^o^)ill L-ili^oll ^9 ja dul£ 11] ;^L La I 4 J 0 (34^ 4 ^Aii AalK AjI (7 

Ai^V L)J^ U* U^A Vj AA-ai 

AajIA 


A^JUll I^jI^^-Liaj ^laJl AAa 1\ dlol^A Ja Jj V A^J^tJl AJtH A_iiV ^ A^ILljoII ^LjI 

All La dl^ ^ m ^ .^,JJ 1 ^n\\ di\£^pJL aIs^a ^O Jo A_^^)JllL 

Aj^^dll lUjLLjljaII dJioL ^9 A^jAaII ^k^aLx-U JjO^ ^J] Jill Ja I ^ A JJa ^LaJ ^JaLaI 

;Jjj±^L Ja L^l ^'^pLaII ^Laill jl^fl 4 Aj^aa 1I djVLai^Vl (J^A AjaL^Vlj AjI jajaIIj Ajli^ll ^ jiJ 
(Jk-sal ji AiLjaL l^Lluil J^u ( dill a L ull glAa1£2I JaaJsjj V ^LoAAbU t ^joj ^aL j^Luol (i 

t(_Jl AiVl^J L dlLLaO Ja ^ jU^JJJA JjJ^jlj^J Jj^.1^^.] ^Ao ^LLlIII ^LqJoI ^C_l (L^-J] 

4 ^^jAa^jMA^Jl A-^kj ^__lo c-LckkuSn (^Ja ^aL^ ^jaJa! dJ^aII^ t ALAa‘*t\l |LqA 
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^jjaJxll jjkli aJ jlkilb ‘ AJ J ^ 1 a l .'N^i ijxls ^3 4 i*v L> t n i ^jC. 

cLa ; jSjj ij 4 AJx_la»»x 4 aK ‘J ■ i \ ■ » ‘^Ic, ^jjj| J-uiil jxLS ^JaLuJ ^Ic. 4.£l£jLl 4ft.lA.lXxJ 

4 ^jx ^-JAi La i -Ij-la. ^jx lLl&xJ! ^uj a^jx J£ ^3 ^j ta jl jxull (Jx-ulI ^ la. AlixjtJl 

jJl! jjxll <_jjjLuJ ^gic- a3C>l3 i£llj Ax_i _ ^LajxV 1 (_jjj j^xl3 ^3 

Jl^j <aSO a jxll *LuxVJ <J gJj ^ ( aJ43 ^A±^.V /AJxiax Ax 1£ *^ld lK xia^jJ I] a^jxJl 5 La 

(Jj 3 Lg_iij )ULxJI aJ£LuJI A aj Ajii£j (j^l jili AJl^J a*_i La ^jc- l_ L a. ill 
jLajc-Ij Aj AllL*Ji (_3jL-al jilt <J£ <jx ^Aakil ajlk.Sfij Alltill <^L£iIil 4_ilx*J ^liall 3iC-j 

(J£ L— iLui la. I ^k-L5 Ala*. ^xlt a La ^3 | 4 Ja \jCx^ A 4 aK / 4 a J . .1 ;^Jc, J' Aj^lill i ja! 

^LxixVt jxtll a .jSU! al jjtlLi AxatJbjxll Axl£l) Ai j£xJt Aj!^J 1! j^aLjaJl ^jaj AifLaxll 4 A iilLilt 


<Jh^ ! '-tf >k 

□n 



(jX-i 


J H: 



,Aj 3 U3 j^.j yx (jlaJiil 


(Jlia-lll ^liki 4 Ut UA 


l a k flj L. iWf dlLLaC* 

J I^LlL (jx CljLilxxJl aLA p _jj3i 4 j-s. L»..Al l ** j\ xl£ii ^-Ic. Ijlaj ^^Lll Cxl^oiLil . "jx Alx^ A^JLlx] 

*Aj£xx 11 c!jLa li juJt (Jaa ^Ixiyi ^3 t ^ 

aLj^ (aj^LJI ^ci 1 ’ tjc. cJ >JJ^ ^ lA 3 *x (cJ^Vi) 1 AJU ^ (1 

Axl^lf 1 ^ 1 » cliaxll ji -ULJ Lax t,^x ^jj^xl3 ^3 ',^ja,jx IA3jlj La -jl 
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II 



fLiutifl Jj 1 ljJIJ JLLLJ>i hh£ 3.2*2 


tgJ AlaL^, ^LojuJ^ AAaJajLki C \\ ^Ic* ?\jy ^ L}^ 4-! Ax_i 

^Ic. ^ a'\cl K $ \ \ A££Aa 1I IgjUj^Q t" AJjoiLujV^ IA^JJl^LjIC- 1 jj OA^.1^1 IgJLA 

l Q.'wtl cIjIjIaC. jJJl (_)JUJ*atSj ip-LojujVl 

^ fSkjj a LV l J I jjLiill £i jxjZj A^KlI ^Jc. cijAjll S-^ cr^ 

©AA J ^ ‘^* J 4C*11a Ajlc- ^)AxJ ljl Lai .l*Jc, jjl*Jl <Lu^all ^uLiill L-aLL^aII AjtgJ 

A_lLaJI oAA AjjJtlll ^ tl jL>» A\ Sjic.Ls l^jl J ^-v W tJ x> ^JJC- A_1 ^Jajji]| A aKU 

Aii^l A-LUa^JI ^- l _}^j (J^ ^ Ia^J A-iLkUl a \\ a tA_Jc,j '3 al ^ ^ y*" 
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ljIjIm a tf SjgUU ^LuuLljJ}) j j) 2*2*2 

^jjLLal^Uf (f 

A*ol£lj AJjjfLail A_l^lll jj-^Lxll 1 g \a (J £ a > lrl\\ ^ Aj^J <^\\ \& 

(^4-al j^ill ^Ic. jby^j ^^l^llljj jjjJI Lui jjoLii ^ jjAaJlj ^jIjjjjJI A 

A^^La tAl^^juAa ^ aJ^^ajoja ^ 4Ajj^x1I AJlUI ^A A^^j^al! A-i^^allj A_la±Liiiil A j <a > »V I 
*\ t L'p'i ^lc. $,LojjjV| <_J-u ^- atA ^jfDj Allxioll CLLaj^ix-ail AA^j-aa j A ^-v v a££L, 

(__ t Ajj^xII Axil I 1 ^)jA*ll ^^Hl A^a mV 1 diL^^oH (j£ A_LojJa ^^)JLu djl QlKlI 

t ^ A \a l J A^jl^jm^aI! dlLoi^ll A-ojIa ^J,W 11 ^jjjLujI ^_ 1 c- LliIjAII 

cJllLa^Ixjailj ^A Aj^^Laj aJj^juLa A_1 ^fLoia dlLai^Jl &AA ( L^ajl ^-lljAlVl 4 1 1 J I^aII 

t AA*Jl^ ^JJdl^JI ^JLljal ^jC> ^L^a3 l au^->\l^p A Qj> L\1 ^ A_iLt_L(Jl 

lA aViA ^ (Jl^juul ^A A.^ix A» uk (Jill J ^.LojjJ A^J dAjolxjoll A j^mVI C-aIal^SH (J*h» Inj 

^-lll A v»aA \\ ^.Ldjjj^lj) jj^a^llj \ aU j| ' LaA ^jjaVl (j'» t(Jj£ i^Ua ^g-ll Lj^jjuuI Lo^ 

^AjO^jiil t al \l ' A Unit La ^J^_uLi 

jllcJ/^i a^Ji 

l^J3 jj£j dlV^ll pLmjajL f 0 a* HI \ A-luiliU oAC-Ulil <_£ j\ i, v \ a ^ 5 -^ ^jjolaJl ^juj 

^jji lLu^clII (_jjdi^Jl L)^ C)A^- c^lLuJI jl ^)^AaJI ^ \**\\ ^9 A k ^ a A_l^Jajui!l A aKII 

AjIIjII j AjjLJ! A_ujdlJlj Aa^^U! ^^Ic-J ^jS?i A fl jlill A^judlUj Sac-LoII i^J^xiaa (> _ 5 -lc. 

djUKlI LjI _)I ^ ^ A Axil La ^ ( ^lLuJl lLljJ^aII cLuJ^all ^ Ua\I^ A^LaJl 

^ ^ ‘^* J l a‘n^\1 Al^jAa]I i^llj Ia& La (dAC>l&l! ^jJjula t> _ 5 ic. A^)Lall AAxlL A*ajjuu j^a 

A^w L lh\I A a1A\1 Lj^^- 1 LaAiC - j L^_il ^lc- LojIa aAC-IaII (_£ ^-LudA ^^iC' Aa^ja^a L)J^A 4^a1I ^)Ajljj£aJI 

dA^ah^all AajjJI A u J \ a\\ JJljiJI Aajjj (La^JC'^JU ^ILuJI ^ J) ^ La 11 AA^j > <~\ a 

^ t ^^_^.ljlll ^jjjjaIa ^A A Ul>ha AjajLti ^Jkt A a^^U! ^A 

i\l tf^. Ac. J) ^-a Ajc^A t a\ ^ j) L-fiLii^di tilLlA Ajlila (_^ 4 AjaajjI Lij^j ^IajaI 

=5 4 JJj^ill =4 4^1xJl ^Jdkll =3 4 lLiA^J| ^SJoil =2 4 CjIa 1I ^ajall =\ \l* A Un'ltU ^^aVI 

=2 4^_Jjl-^La]| — \ t- fl'u^U A Uu'lllj ^AxILiaII AjlAj^O =2 4(J_jxi-all ^JLiil =6 4(3^.l-^l 

=2 4A^ijall = | *AAxii A un ttl \ clu^ail =2 ^J^AaII = } A u uttl \ ^jjja^all =3 4^j^jiLall 

O^ 1 -'^11 


• : 3 


^AA^aaII 1^!^Jsl4J ^LuojVI jAu A^j^xJl Aiill AulaAJI pLajaiVi Alai 

jl A aL a j-n. \ A cLu^oll A At it Jl Aii ttLil^a l^_li (jlc. a^C-liil ^3 4 a^j-u^4 A-m Cy* Aa1^3 ^ 

^3 A jxk. iiti ^jjo 4-L-al^liJi^ lu jl ^jLloLa LU 

dJi gJ \ia*!>njiti fJ^LiLLniVi j (A^LoJl <J^Ajl A <ftK1l j > s\\ tfv 3j^- AALa ^>J^I j& <1 a ^11 ^ 

^cJI Aj]1 CjU>j1q ^j_A> J ^yi J i AjJVa jl A Cj^U^a (^jA (-IjLi jla-ail 
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Jadlt a_ai ^jjjjlAI ^Ac* Lil _1-£-Aj a! a l>> tVl t (3 L ^1 AjtJjJa j 

^ja ^1 tAjJ^atJl L> *y^\ ^jl ^A LaAA^I fiLajLM ^Aca a l i^i 

IgJS (J '^L *4 \j^ l 7 sa ^A 4^_3 ^)j ^]1 cJ < L *^ (jl ^jjaj^i-<Al 

L> L)U^ V jl jA j^LM J-^Vlj .<_> 4 j a m V i L at L ^-Sj 1 J^ljjjj (J*-AL 

JaLaj^l (jja*J ^^.l^lll j (Jo^I^jjAI ^j^uJa ^j-^LaAl 

■ CSJ^Vl 


^xujIj ^jjjIj <j*Vv \| ^jjj! ;^L LiaS S ^Llaj IaUJUuC'I ^Luui^l i al^^l 

AiiL-aj t^^ati-Al ^-ujIj t^Jc.lill ^jjjIj td-l^Al t t(jLa^3l ^Jailj ^sjuAj t4ALM 

4jlJLl<A| 


^1 ;AjjV 1 ;J^ \l A l nt oil ^Aj ^(jLajll ^*1 f-t Vm L nt \ dlji ^LlJd/l ^A JjVl 42uAl L at \ l ^->V 1 

t *" ^ »A 4Ja jj^-AI $LA| t_Lli ^jjjj£j ^4^ ‘(ALuAl djj-Al ^ ** ^ 

4 ^K\| ( j -(1 4Ja^J^)-Al ^tAl ^ia^J td^jj^jJaiU detail ^jca ^a*a Lfj ^4 ^K\| ^jc, ^L ^il Lf J t4l^Lf 

^Aaa itAlli ^tLa c^J uhAI J^a t^ALa djj-a * (jj£a La.Ika jl tA jIjj Li Aic. 

Lf Aj£^ Lili Sa^Ij ^_3 .^jj L<i U3U, AjI ^ /j-*i t q\1 A a l£^iuj ^Ixll ^xjjjI 

^a31j <,Cj1jA]1 (^Ac' (_JAj Lf (_^A^I AliA^Jl ^jjj! ^Luj tAll-i AjLuj ^)£a11 AajLuaII l ^ A \| ^)Uaj ^jc* 

tAlLaj l^j j£ ^_i i Aj^ 51 (jC' Sjj£a^ 51 t- al ^ l ^Sj I l qLa"j .^ aj > j jl (ji UUa.1 <^aj V 

j£Aa51 A-*i^ ^ M Kaa jjc, Ajjjiiil (c_j tLajl^ CipLll Aa^LT Aia C'Lil (i ;1 ^j1Ji -j^.M i^A \ l 

.,j£-^ ^iLuill 


JAjlH 1^1 ^Jli AA^jLLj LiK t - ^1 L _J Aj^OJJjl L al u^aI AjtjJaJ Ua 3 La IC'Uj 

AjlJ^atil Aitiil AjIajoiLM (JJ^ (J-^a | JbaJjui>a *j l ndl\| |AA (JjjLjjI ^jl£i 4(^^.l^iil ^a 

; Ajj^| Ajum_jll cL^LAl CjLiilall ^A^-Lf Sjj^jJalL ^ ^ m 

£ ff cjj/ cxj' ^ALuAl j£juA1 £-a^A1 Aa^.Vj ^ujtiAl aS^V (Ja23 V (^Al c^J AlaiAl S 

^jjj! ;(c-LaduaVI £ja S j)Jj£. A-Lloj ^Aj^ Aailail A j a l nV i <- al ^ l ^ V | ^uJajj 

_ ja_uj£ail ^4a./^LJl/CjAaAl/CjlAll 

"^alAI Ai^Vj i flLaAl j£LAI £A* 1 \ Al^V cJjSj V ^1 ^121 AlJJI >/ 

_diA^. jl dll A ^jjj! Laj ^Aj 4-lali ^j-djJaaa c " Ltfl L)^ 

^sjjjI ;iAtAl Ajaui^l dLdaVl (jdli tAajaiAl Aa^-V (JaAj V (^Al AlaUl dbj tAaiLAl AlaiAl >/ 

.AiAUAl a q A t/^J^t At 

^jJad V Aj j£i ^fAjVl AAiAAl ^AaAlj dAaAlj dll^l ^jail < uta. jjja£2l lA^.^)Al AaI 

^Aa*j tAlUA .l^Aj ^ ahj AlaUl ^>M i ^»A daij Aj j£Aj t^^j^LAl A]U a L. ^ SAc.1a 5 
^jjj^jl^il dA^Al j dlAil ^ojoiI laA ^)£a!L dj^)j ( ^ail A-i^llu V 1 L "* L ^ V 1 

^L31 (JaSlj ^jjAA ^j-<uJa A^jAxJl C'Lujj'^I ^jjaata ^jl ^Aj tAlj tAajLAl j ^Ij^l ^jaaAilail 

dAA .4 l ;LA ji ^ La£ A-S^V 4 j A^.jJ 1 4 qj n ^ <j^£j 1 ^jA 1 A_la^j^)-Al 

A^.jil ^jjj| ^uJajj Lf Aj-ald 4 <St L _J /jl ( dtjjj C'LujaLfl 




4 JlP a L /3 fl 1 ^ ij^ ^ 1 ^ 1 1 ljjl4 vl)L*jJ^ L?rja^ AjjJ ^ 
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pLgJl^ (J3* ^ 3 J A 1 S *0.^3 L 11 ^ AjjoliIIj LhA ^1 

Aa3^Ui ^3 d3jl jll A_iJLi^jj_^_flj^ail dlLcuaJl ^3 (JlaJJ Ia^ALjj ^3^ jli AjjaillU IaAjJOj 

(Jo La] I 

jLUjJ Ij JjLjII 2 . 1.2 

£3^11 I3A 1 g *■ j 3^ L^J^c^ Aj^JajuJl L^jIa^j Ajj^jl]! $^ 3^3 Sic. 

(Jg Aj] j3a]I JaLaJ^l 3* LA3JC. 33 ^ (JIjlsV^ 3®^*^]W )t ^,*3 L ^^ 3“® 

3 Jl -^ 3^1 3* £3^3 ]! l]^ 3^ tAJjSjuLa <JLdI£ 13 AAaJajuJl AjLo1£3 (_J£juj aJI^Lj (_J-liAiil A-iLoC- 

&3A ^3 ^LA^aJj (Jj^t ft nil ^JJ AI '~ k Q f'La]!^ jl ^]| ^0 3^”^ ALiLliJI A^jV (^5^ i-^LjcoC-l 
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A^^ll (^Aaui l.UW 3) 3-ojll A3J-AV3 ^A3LLlal]| cIjLajuJI 3!^ Jclftll ^lAjuia ^3 LjjLjJ aAaIaJI 

t (c,lll]|j 

^ ^1j 3 A1 ^ AJdLkJaj (JIAjIajl]! d3gJ ^Ual! 3xJ AjIc. 3 1 ^* jv ^ II J ^U.-U JLi« 

:^Vi 41^3^3^^! £3^ c_i^j^ail ^3 a! ^ cSlAil <_J£J 

I .A, 3V Aiill ^3 Ail^^aJl cjIjjlj aL*J 1 Ail J Aj£aa]I ^cjlii]l 3 ^ 31 ^3b l3^A j 

^3 1 J v 33 ^3J^ L . ** ]**' 3^3 3* ^A j3 AIjI^aVI 33*J £ljjj 3AI ^A UjlixJl 
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A-tjll* , 3,1 

A*_l ^ 3 ^AJ A-IaJoj-lJI A a\^U i \ . J \ a\\ ^ \-x, \| \-x. \\ < 2 aa*a 1 Li Aa^IjL &11 &AA ^^flA 

\ A, y\ A \ L 4 3 *-^J 4 AajIaaj& A-nlaj|j A ofc-^ ^ djLuii kJjti\ aA^J aJjijlAjji* (IgA AjallaJl ( 3 J>dia ^ 3 ^ AJl^j 
y Am \ A .i a l .. > 2 | fiAUuL^ll ^j-o ^jaj£ AAC. ^A diljL^ LgAj)£, 1 g jifr il i » yp 

3-2x21 ^A A 3 ^£*-2! j^ya \p yi 1 g L cl-o (^jLajJaj2l IaA ^A Lg2j 3 J -^,j2l ^21 Ajqa2I ^cjIaaI! 

\ ^a!I t ** i'MI'v A\ i^ya Ap^a^a A^a .^11 CaJj^jA 3 2 ^ 21 j Aaj^xJI A a\^\\ 

a*j*j ^a 51 (Darwish, K, 2002) ^ jj*^ <3=^\ 

Buckwalter, T., ) j2'j£ 2 31^-21 j ^ j2?Jl Cjp u jjfl 


^^A^)jL-sail (Jl«v 21^ (L_Aaa 1 j ^A^)j-sail ^AaJI cJlAg^juAj Ia^jAj 1 ±jj^ 2 a AaAjiA ^a]I ( 2,004 

t Lk^)JC-^ ^aIAxjlhI] 

^jjiAl ykjM all J^laalt fUaj .2 

dilc-IjiU UAa i{$ jaJ ^J*!' o^* \ a\ln^ Aj^j^jAj AajLj£a JUJI 1 AA (Jiliou 

4 _^aV ^ 2 ^ a 2 aj 2 I &AA ^A 3 Ji -‘ a ^3 (Aj\jlI! oAgJ Ia^a A (AjIa£JI c-Lii CaLaKJI qai 

Ia^^Iac- ^Jl aajl^aII j! aa^JojuJI a aKU ^2a2l ^3^ Iaaaj Iaa \ g \a ^ n ^aII C )\ aKII 

^21 ^^.1 ^1]| J ^jl^jLtill ^A^jV 4^5-^ ^2^21 A<ft*tw J (3*-^ 13 * ^ $ 2 t ^jAi ^JJAaaIIj (AA^2! 

SAjI^ LJ^i (JxaIIa A aK \1 ^ya ( ^ 3 $\ { (jl (_j-a A^IaM <_£A^ C* \ \a 3 ^ ^ 

^\jlA GLliI£ IaI U pLajluV^ (J;ii^A L_a 1 \a yp. \ £ ^ 3 *"^ *“'j 1 ** LajluI A aK \1 dlil^ ^j|a A \\ t ^"il CAjjuaI^ 

t 32tAVi 33 ^ 4 - 21 a a Uni^s \ ^ M-v*^ **\\ l nA 

JUJ9f LjjJlB 1.2 

^ic. (iib ^A IAxAax cAA^Vj ^A^.^ AAjLia ^_jJ1 L^2a^AJ^ Aa^Jsj21 CaLaI^I! 32^ C5*^ 

*4__Jl2l Ia& (JaLuaLaI 32aJJ j jl-v -Q ^) ^11 L 1 ^ *3 ^Jj 1 ^ A AajLuJ A^l^a 

J2*^y/ Aj/yJJ 1 , 1,2 

l^_La JAxjoaII *>Jlj I^Aa Al JJ-ull iAj&ljJ CiAC-li AaaIIxA ^Lkoli AaIuoJ 

^(LtJaJJ (^^3 4A-1£-u1a]1 \ \-im a\\ SaoIa iyji AoI^aII ^o^-^AjluI AajIa Aa^jIaa ^AlJ ^A AA^ 4 ^^Aj 

(_>u^«l 5 ^-»jj t .""V' ^ J* ^jc- J*a 1000 O^y*^ (' 

s Sa&lall aIa oljj (J^ 
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lit ^jVt Ai^iill <_ij^ (i 

^ a ■ 4 aKU 

<_] ^Ja LoAic- La^j 4 ‘ a \i Aa^V (jjA ^ ^ l_il£ ! a| I ^jja^aJl t 

A^" <— 4_jai Ajuji AalSlI 

t "j" <_J i^j JaVl A^ ‘-•j^ 4 *jJ a 441 J^ 3 u 15 W "j" J_jVI <-j jsA 1 < 
j\ "<_i" M J&l ^ic. c_ijJ A*jJ a 44I jl£ lit "J” j\ V" JjVl <— i^pJl U>ia (a 

4&a4*4I AajjjJI ^Ij j3! ^ i ~_3 aA t •* i il K 1a}^ t M (J n 

A^ 1 AaJ^l A ^Ktt (J^Ja ^jl£ Ia) A i. .'1 t*\1 A -v tN U qaLi] 1^4I Aj jA/; ■*'' A_il (& 

<Ai44 ! oaa <_iA^ JJ JaVl 

a£Aj a 4£1! JjJa ^ ^tiAll i^iUl <^a AaII^I JjVl aL^ SjjSIaJI Ail jVI (j 

.AiOUl aAA <-jAa. <J4 JaVl Jt 


iLaXIl Ula, Jjjti* . 2.1 


light ) L ^ * j w ~ \ ^jluIa CaIajaVI ^a LJajI Aa ^)*4l j aaIj^^UI <- ° ^ AjjIa-q i flN ^ 

Aajj» 1! AA^I/AjaJauJI iiiUSlI <> (kJjVl Oja) (j^ljlllj ^*>41 A-iAa. ^1 4 (stemming 

jjk.Ull jjj <> # 4 LIn A iti l^_j| jt 4 1 a Aj-^y * <ji UJ^ (!)■* 4 j*j 

V <J4±uj ^Ic- ^)£jlj 4Jtlll 1 ^ 4 _j^)Iaa 1I djiA ^)Ua] l^iiJLai! 


-ijaajj ^ Larkey, L. S. et al, 2002)) t^jV 

^ a*K 4 jO sll ^ 4 4i l q\^ ^jj\jLajlj V t4_Ll^»Jl 

£*** LS^ (light 10) 10^ ^ f_£?J 

^jIaII Ia.1}jj (JjjLiS t- £>jp£j l^jxj 41 (Jj 4AjJ^)xil 4 JlUI 

djljjJa^Jl ^^-Ic- AaJAJ^ 4 AaJ*-aJI 

1 i jj£i ji j& 4 J[<\\ qa La li) 8 L J 3 L J 2 L (j-« M J M L (1 


^A 4 aK \1 La ( 1)1^ L ' Q,>s ~ v (l _1 

AjLaxJI &4A (Jlul£ l^j 4 4^^V 4 j 1 ^ ^^.I^lll 4_a^V ^-l] d^^xil (^ 

. jjSi j\ cAj*. 
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LW lUc- (^ 4*4 


4 4 V* ^ V l alIA ^AJl 4 ^ Af i 

diiyd i A1 jl dj^liJl jiLcoc-Lj 1 ^ u l >> a sis a jLac^Vl &Aa (_J^. Al^ld Ijjill 1 AI j 
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4 ^^liaV^ ^jAc. A-oj^Li-d Aj! 

^}j4j Aiil j-oll detail djljjtLdl <_£4 a. 1 *^jJujLl>a ^j4C jl nida A_iij£j (JdcVl &AA ^Ja. 

4Ajj 1 > ^yi AjjIIJI *^jlALall I.AA ^)J^AaJ <JIjl 3 (J£dj > nl 4 w U djl^^Vl A 1 ^4 

# A4j^]! 04A ^9 \^jlc j^^Lui ^Ail 4^Aji*-Al (Jjl J N*i\l Aj^)lLftj t4 l a.W A 4^1_1 a^ 

&L**yt .1.1 

^jLoJ ^jAc- 4>a4*J^ 4|J}j-ialj}lil jj £^jjAaJl 4^)1^ dll 44^4 i ^ ^ ^ A Aj^ULa ^£ti 

<■ IajA ^Ail CjLol^il diLiiAa ^Aj ( A_L^J^juJl diLol^i! qa ^ ja^AI ^rl^^Axi»V n-grsms 

l^_ll t <JlA fl linll C>A^ (, t \\ l ajai^**Al l* \\ j 'i a*\ (JLoxAujIj 44 jLo (JjSH f>^)^Al jl ^n-gTBTns) Ajuiij 

^ jAaJl (_j>a dll fljli ^Ail ( ^ 5 Ac- jj ^JVl (^jAc- AoAaj Aj^jIaa 

j (Xu J., et al, 1998) c> ^*A1' ajj^' &Aa diLia &j ^ jljA51 o 1 ^ 

.(De Roeck, A. N., et al, 2000) j Mayfield J., et al, 2003)) 

^AaJl qs*\\u*\ A] 4(^j&/^ jJ^jj) aJVI a^jUI ^ 4^1a 4 ( ? Chen, A.) u^ t ^ 

(Jlilai Aaj^)C- 4_a1^] \ y $\ (djlAAiti # 4 tSf t I^j^LjLia 1^-ljj A_iJ^*Al dlLd£ll ^j-o 

CP- <J! ^U^Vl cs^ SjAill a! ^jAajyi Jl l^j ‘Children 

^_Al child ^jAc. ^j_ixjj>jq Ajli 4(4 Jl 111 da^A Aj9^ua 1I Ajcnlall l^Aaj) ^a^AI aal-^V aIIJjI ^j^Aa 

4.A1A LoJ A^j^sAI dlLAill ^ jAa. ^1 Jj^ajlAl ^JJ AjJ^Jall oJi^J < JiAa Ajd£ Axi^jdl AjlAII I^AjUj 

(J^Vl dl^aAl l^_La ^A^Vl dl^Ajll a i >iU (*hn IjLjJalj cAj^jl^fc 'VI AJtAll ^Aj A^o^^iLdl 

^)±^Vl Aii^aAl (^^Ac. cLi^LAl ^jl^iil Jdiij Ldij t(_gA^Vl Aj^lAil 

^ Aa-dl I Aa ^9 AjlaLoII dll ^Aa^ll 4 d^)li.Vl Aj^lAll AJ1 j^)^] 1^ ^1 ^jj9^^Alj 


i^jAL-^d! 
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Resume 

Le contexte est mal g6r6 dans les domaines ou il constitue un element tr^s 
important et parfois m6me incontoumable, comme dans le domaine du Traitement 
Automatique des Langues (TAL), dans l'analyse semantique de donnees et dans la 
gestion de connaissances (Semantic Data Mining & Knowledge Management : 
SDMKM), etc. Pour rem6dier & ce probldme, nous avons propose une approche 
appeiee « PROSEM » (PROjection SEMantique) permettant de detecter et de 
relever tous les « traits s6mantiques » par rapport a un contexte donn6 et 
d’augmenter largement l’efficacite de la formalisation du sens d’un contenu afin 
qu’il soit compris par la « machine ». De par sa nature, cette projection peut etre 
utilisee dans beaucoup d’autres domaines lies a la notion du contexte c omme : 
l’indexation des donnees, la recherche linguistique ou semantique dans les 
systemes d’ information, l’extraction contextuelle d’ information, la gestion des 
corpus multilingues, la generation automatique de textes, etc. Dans cet article, nous 
allons presenter quelques domaines d’ application qui peuvent etre ameiiores par 
PROSEM ainsi qu’une evaluation des mesures li6es aux performances du modeie 
propose. 

Mots cles : PROSEM, TAL, SDM, KM, Contexte, Semantique, Ontologies, 
Indexation, Recherche dTnformation (RI), Extraction d’Information (El). 
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1. Introduction 

Le contexte est tr ial gere dans les domaines ou il constitue un element fondamental, 
comme dans le domaine du Traitement Automatique des Langues (TAL), dans 
l'analyse s6mantique de donnees et dans la gestion de connaissances (Semantic 
Data Mining & Knowledge Management : SDMKM), etc. Pour rem6dier 4 ce 
probleme, nous avons propose une approche appelee PROjection SEMantique « 
PROSEM » (H.FADILI et M.CHAKIRI (SITACAM 2009)) permettant de detecter 
et de relever tous les « traits semantiques » par rapport a un contexte donne et 
d’augmenter l’efficacite de la formalisation du sens d’un texte afm qu’il soit 
compris par la « machine ». 

La moduli sation de cette « relation, association » entre le texte et le contexte basde 
sur PROSEM a pour but de formaliser le sens par 1’extraction des mots et des 
relations permettant l’obtention d’un r6seau s6mantique « contextualise » refietant 
fideiement le sens des contenus 6tudi6s. Concretement, elle permet de faire « la 
projection » du texte represente par l’arbre conceptuel (AC) issu du TAL sur le 
contexte represente par l’ontologie du contexte (OC) en utilisant les « relations 
semantiques » pour faire le « mapping » entre les concepts, mots, relations, 
instances, attributs, etc. des graphes. Nous avons tenu a mettre 1’ accent sur 
l’utilisation des relations semantiques parce que nous considerons que c’est le 
moyen le plus sur permettant d’eviter la deperdition du sens et de relever toutes les 
nuances dans un contenu en rapport avec le contexte. Nous essayons 4 travers cette 
analyse de prendre en compte certaines relations semantiques (un sous-ensemble de 
l’ensemble de toutes les relations), celles que nous avons souhaitd utiliser dans un 
premier temps afin de valider notre approche. Nous faisons reference ici aux 
relations de synonymie, de polysemie, d’homonymie, d’antonymie, 
d’hyperonymie, d’hyponymie, etc. En effet, nous considerons que si un mot est 
important et qu’il doit etre retenu dans un contexte, il en est de mSme pour ces 
synonymes, ses contraires, ses generiques, ses specifiques, etc. 

La specificite de chaque type de relations semantiques est geree dans les differents 
algorithmes de la projection. Bien evidemment, 1’ extension vers d’autres relations 
est possible suivant le meme principe. Outre les mots simples et les phrases 
ordinaires, nous avons etendu notre approche 4 des toumures figees et 
metaphoriques. Elies sont codees ou indexees pour que la machine puisse les 
extraire facilement et leur rdserver un traitement sp6cial pour 6viter toute ambigiiitd 
au niveau de T interpretation. Concr4tement, on les exclut des traitements du TAL 
pour les remplacer par les representations formelles de leurs sens reels dans l’arbre 
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final. De par sa nature, PROSEM peut §tre utilis6e dans beaucoup de domaines li6s 
k la notion du contexte comme : 1’ indexation des donn6es, la recherche linguistique 
ou s6mantique d’ information, l’extraction contextuelle d’information, la gestion 
des corpus multilingues, la generation automatique de textes, etc. Dans cet article, 
nous allons presenter quelques domaines d’applications de PROSEM ainsi que 
l’apport que cette methodologie pourrait apporter pour augmenter l’efficacite dans 
ces domaines. 

2. Quelques 616ments sur PROSEM 

Ce paragraphe sera consacr6 k un rappel sur quelques elements essentiels de 
PROSEM. Pour plus d’informations, cf. « PROSEM » (PROjection SEMantique) 
H.FADILI et M.CHAKIRI (SITACAM 2009). Le processus consiste, k int6grer des 
outils permettant d’extraire l’arbre semantique brut en utilisant les outils du TAL, a 
le convertir en un arbre conccptucl en appliquant les algorithmes de reconnaissance 
et de classification d’entites et de resolution d’anaphores pour effectuer la 
« projection simantique » de l’arbre obtenu sur l’ontologie du contexte 
« sdmantiquement parallkle » aux relations semantiques decrites dans le 
paragraphe suivant. 

2d. Les relations semantiques 

Les relations semantiques represented les liens de sens que peuvent entretenir 
deux ou plusieurs mots par rapport a leurs significations, comme les relations de 
type synonymie, antonymie, hyperonymie, etc. Dans les cas des applications 
traitees dans cet article, nous pensons que l’utilisation de ces relations est 
importante et permet, par exemple, d’ 6 viter d’ignorer des mots bien qu’ils soient 
pertinents par rapport au contexte. On consid&re que si un mot est pertinent dans un 
contexte, alors tous les mots que l’on peut atteindre via les relations semantiques 
sont aussi importants que le mot lui mgme. 

Etant donne que le nombre de relations semantiques est important, la probabilite 
qu’un mot et les mots semantiquement lies soient consideres est superieure a la 
probabilite ne tenant compte que du mot seul. L’utilisation de ces relations peut 
avoir un impact tr&s positif sur 1’ amelioration des performances des applications ou 
elles peuvent dtre utilis6es. 

Dans cet article, nous nous sommes interesses a un sous-ensemble de l’ensemble 
des relations semantiques entre les mots pour montrer l’apport que pourrait 
apporter la demarche PROSEM a travers cet echantillon. A ce stade de la 
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recherche, on s’est limite a un traitement et a une utilisation generique des relations 
semantiques, mais une etude tres approfondie des specificites de chaque relation 
ainsi que 1’utilisation qu’on pourrait en faire est prevue dans nos travaux futurs. 

Ci-apr^s une presentation tres breve d’une liste non exhaustive de relations 
semantiques choisies qu’on pourrait traiter de la meme manidre dans le cadre de 
cette demarche : 

Etymologie : origine ou filiation d’un mot. 

Synonymes : mot, syntagme qui par son sens est similaire a un autre. Exemple : 
grand / elevel. 

Antonymes : mot, syntagme qui par son sens s 'oppose a un autre. Exemple : grand 
/ petit. 

Hyperonyme : mot (nom) dont le sens inclut d’autres mots (generique). Exemple : « 
insecte » est l 'hyperonyme de « abeille ». 

Hyponyme : terme designant une sous-classe. Exemple : « abeille » est I’hyponyme 
d’« insecte *. 

Meronymes : Terme lie a un autre par une relation de partie a tout. Exemple : 
Voiture / roue. 

Troponymes : Pour les verbes, qui decrivent de maniere plus precise la fagon 

dont Vaction d'un autre verbe (le verbe dont il est le troponyme) est realisee. 
Exemple : Se deplacer / marcher. 

Derives : sent des mots obtenus a partir de la mime racine. 

Expressions figies : Une locution est toute suite polylexicale construite d'lmitis 
lexicales non soudies, formant un bloc figi inanalysable au niveau simantique. 
(Chakiri 2007). 

22 Fonctions fondamentales 

Ci-apres la definition de quelques fonctions que nous avons utilisees dans le 
contexte de PROSEM et qui ont aussi servi pour la definition des extensions des 
domaines duplications traites dans cette etude. 

Soit la fonction « Relations Semantiques » RS d’un mot : 

(Di) *{{m}} 
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Xi ► RS(Xi) 

Tel que : RS(Xi) = {Xilsyn(Xi)lcmt(Xi), ...} 

(Di) un document et {{m}} ensemble d’ ensemble de mots. 

Soit la fonction « Lien Semantique » LS entre mots : 

(Di)*(Dj) *{0,1} 

(XiXj) *LS(XiXj) 

Tel que : LS(XiXj) = 1 si RS(Xi) (1 RS(Xj) ±<j> 

LS(XiXj) = 0 sinon 

(Di)et (Dj)sont des documents. 

Soit la fonction « Intersection S6mantique » IS entre documents : 

{Di}*{Dj} *{0,1} 

(di,di) *IS(di,di) 

Tel que : IS(di,di) = 1 si 3Xi € di, 3Xj € dj / LS(XiXj)=l 

IS(di4i) = 0 si VXi €di, VXj € dj / LS(XiXj)=0. 

{Di} et {Dj} sont des ensembles de documents. 

Soit la fonction « Projection S6mantique » PS par rapport £ une ontoloeie du 
domaine COD'! : 

(Di) *{m} 

Xi *PS(Xi) 

Tel que : PS(Xi) = m €RS(Xi)/ 3n €RS(Xi) etn€ (OD), m est choisi 

en fonction de I’utilisation (index, recherche, 
extraction, ...) 

PS(Xi) = O sinon 

(Di) un document. 

23 Architecture 
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( Algorithmes + 
Ragles de 
Mapping 

t 

Dictionnaires : 

relations s&nantiques, 

locutions, 

rhdtoriques... 




Pr6-traitements 


PROSEM 


Post-traite ments 


Ldgende : DOCs : Documents, TAL : Traitements Automatiques des Langues 
Naturelles, EN : entites nominees, AC : Arbre Conceptuel, OD : Ontologie du Domaine, AR : 


Figure 1. Architecture generate de PROSEM 

Pour explieiter et expliquer le schema precedent, nous presentons ralgorithme 
principal decrivant le processus PROSEM. 

2 A. Algorithms principal 


Algorithm principal 

Entree : ensemble de documents (D), ontologie du domaine et des 
contraintes (ODC), arbre conceptuel (AC), dictionnaire d f entity s nommees (EN), 
dictionnaire des relations conceptuelles(DIC), dictionnaire des locutions (LOC), 
objets du discours (DO). 

Sortie : arbre conceptuel « compris » 

Debut 
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(AG) = 0 — arbre genere final vide 

Pour chaque document (Di) faire 

(AGi) = 0 — arbre genere pour chaque 

document 

chaque nceud (Ni) £ (AC) faire 

Action 0. si (Ni) E(ODC) « dors (AGi) ++ (Ni) 

Action 1. si syn(Ni) E(ODC) alors (AGi) ++ (Ni) 

Action 2 . si ant(Ni) E(ODC) alors 

Action 3. chercher les relations associies 

Action 4. (Agi) ++ action inverse 
(ant(Ni)) —Aa vendu aB/Ba achete a A 

Action S. si hypo(Ni) E (ODC) alors (AGi)++(Ni) 

Action 6. si hyper(Ni) E (ODC) alors 

Action 7. Lire et appliquer le choixde Vutilisateur 

Action 8. Rdpdter pour toutes les relations sdmantiques 

Chaque locution (LOCi) E (Di) faire 

Action 9. (Agi)++ graphe (LOCi) 

Fin chaque 

Chaque locution (DO) E (Di) faire 

Action 9. (Agi)++ graphe (DO) 

Fin chaque 
(AG)++(Agi) 

Fin pour 
Retour (AG) 


Les differents domaines d’ application que l’on presente dans cet article et que l’on 
veut ameliorer et enrichir avec PROSEM peuvent etre classifies suivant trois axes, 
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un axe oriente vers P indexation, un axe qui traite de la Recherche d'Information 
(RI) et puis enfin un axe oriente vers l’Extraction d’Information (El). Dans ce qui 
suit, nous allons definir brievement chaque axe, puis montrer comment l’on peut a 
avers les fonctionnalites de PROSEM ameliorer P optimisation ainsi que la 
pertinence des r&sultats d’utilisation. 

3. Processus (indexation contextuel 

Un index est une vue des elements (contenus) qu’il represente, base de donnees, 
documents etc. Nous pouvons parler par exemple d’un index des auteurs, des villes 
ou d’un index d’une categorie de mots particuliers pour une utilisation donnee. 
L’indexation consiste en la construction des tables decrivant certaines donnees 
ainsi que leurs emplacements dans les systdmes ou elles sont stock^es, ceci permet 
de faciliter leur localisation et leur mode d’accds, surtout ngcessaires dans le cas 
des syst^mes d’information volumineux. 




A 


Moteur 

d’indexation 



BDs / documents u 



Figure 2. Processus g6n6ral d’ indexation 

La plupart des moteurs d’indexadon actuels generent souvent des index redondants 
et parfois non pertinents. Ceci est du au fait que les entrees sont souvent generees 
par des algorithmes simples considerant chaque mot du corpus comme entree 
potentielle dans l’index. On fait corresponds a chaque mot une entree dans 
P index, considerant par exemple les mots ayant le meme sens comme differents, 
c’est P6galit6 stricte entre les mots qui est utilis6e pour alimenter l’index suivant le 
processus ci-aprgs : 
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Si le mot possede deja une entree dans la table des index, on procede a vine mise a 
jour (une sorte d’UPDATE) de 1 ’enregistrement en y rajoutant 1’ emplacement du 
mot en question, sinon on cr£e une nouvelle entree dans la table des index avec le 
mot en question et son emplacement. 


Algortihme du processus classique d’indexation 
Entrie: 

ensemble de documents ou elements a. indexer (ED) 
Sortie: 

- Index genere (IG). 

Debut 


Pour chaque (ED) faire : 

Pour chaque iliment (Xi) de (ED) faire : 

- Action O.SiXi €(IG) 

-Action 2.Alors UPDATE ((IG), Xi) 

- Action 3. Sinon 

-Action 4 . INSRT((IG)Xi) 

-Action 6. Fin si 
Fin pour 


Ces types de processus ont plusieurs inconvenients, malgre qu’un index est une vue 
condensde du contenu qu’il represente, 1’ indexation des syst&mes de gros volumes 
de donndes peut g6n6rer des quantites tr^s importantes d’information, parfois 
difficiles k g&rer et i maintenir. En effet, la taille d’un index et des traitements 
associ6s augmentent proportionnellement en function de la taille des donn6es. Un 
autre inconvenient qui caracterise les index issus des techniques dites classiques, 
est leur pertinence. La plupart des index sont generes de la meme maniere avec les 
memes algorithmes, sans tenir compte du contexte et du but de l’utilisation. 
L’indexation universelle ou celle qui repond a toutes les utilisations n’existe pas, 
du fait, qu’il existe un nombre infini de vues que l’on peut associer k un contenu. 
Une indexation doit Stre faite dans le but de rdpondre k une utilisation donnde par 
la delimitation du domaine et la definition du contexte d’utilisation ; ce qui permet 
de prendre en charge les problematiques d’indexation liees essentiellement a la 
pertinence et l’optimisation (non redondance au sens semantique). 
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Figure 3. Processus classique de gestion/g ;n< ration d’ index, 


Ces problemes sont dus en partie au fait que 1 ’analyse du contenu est basee 
essentiellement sur des methodes simples traitant chaque element, 
inddpendamment des autres et en dehors du contexte, mdme si des 
« factorisations » sont possibles pour simplifier et diminuer la complexity et la 
quantity d’information k retenir. C’est pour cela que l’on propose d’utiliser 
l’approche PROSEM afin d’enrichir 1’ analyse du corpus dans le contexte pour 
generer un index optimal. 


Algorithme du processus general d ’indexation en utilisant PROSEM 
Entree : 

- ensemble de documents ou dldments & indexer (ED) 

- ontologie du domaine et des contraintes ( ODC). 

Sortie : 

- Index genere (IG). 

Functions specifiques : 

- UPDATE ((IG), Xi) : permet de mettre d jours l ’ entrie Xi ou RS(Xi) dans 
l 'index en avec l 'emplacement de Xi. 

- INSERT((GI)Xi) ' permet de creer une nouvelle entree Xi dans l 'index avec 
son emplacement. 

- Les fonctions (RS) et (PS) definies precedemment. 

Debut 


Pour chaque (ED) faire : 

Pour chaque element (Xi) de (ED) faire : 
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- Action 0. Si 3 m €RS(Xi) /m€ (ODC) 
-Action 1. Si 3m€RS(Xi) / m€(lG) 
-Action 2.Alors UPDATE ((IG), Xi) 

- Action 3. Sinon 
-Action 4. INSRT((IG)Xi) 

- Action 5. Fin si 

- Action 6. Fin si 
Fin pour 


Cette nouvelle approche d’ indexation permet d’introduire 1’ analyse sSmantique du 
« contenu » en introduisant la notion du do main s et du contexte pour generer 
l’index. Cette approche permettra d’obtenir un index par domaine et/ou par centre 
d’interet, pertinent et optimise. Ci-apres la description du processus general de la 
nouvelle approche. 


Nous vdrifions pour chaque mot l’existence dans l’ontologie du domaine et des 
contraintes ; 1’ existence du mot dans l’ontologie est une existence au sens 
PROSEM qui la definit comme suivant : un mot est dans l’ontologie (ou fait partie 
du domaine traite), si le mot existe dans l’ontologie ou si au moins une de ses 
images « RS(mot) » par les relations sdmantiques existe dans l’ontologie. Plus 
concretement, si le mot existe dans l’ontologie au sens PROSEM, on fait un 
UPDATE de l’index de l’entree avec 1’ emplacement de l’image <r RS(mot) » 
presente dans l’ontologie, sinon on cree une nouvelle entree dans la table des index 
en utilisant un 616ment de « RS(mot) » present dans l’ontologie (le nceud 
repr6sentant les 616ments de RS(m)) comme entrde de l’index. 
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Les index 


Figure 4. Processus de gestion/generation d’ index en utilisant PROSEM 

Avec cette m6thode, l’indexation est optimis6e par rapport k ce qu’elle aurait 6t6 
avec les m6thodes classiques. Elle est pertinente et rSpond k une utilisation dans 
un context® donn6 et la quantity d’informations stockSe est largement inffcrieure 
Elle peut etre esti m ee a « (tattle de l index / (le nombre de relations semantiques)) 
- le Bruit ». En effet, et d’une part, tons les mots lies par les relations semantiques 
sont representes par une seule entree dans l’index, et d’autre part, tous les mots ne 
faisant pas partie du domaine sont elimines. Les mesures de pertinence et de 
quantite d’information qu’on obtient avec PROSEM sont prevues dans une etude 
ulterieure. 

4. Recherche semantique et contextuelle d information 

Les moteurs de recherche simples permettent de retrouver des occurrences de mots 
dans des documents et dans des bases de donnees ainsi que leurs emplacements 
puis renvoyer i l’utilisateur les contenus contenant les occurrences recherchees. 

Les recherches classiques consistent k comparer les 616ments de la requdte avec 
ceux des textes sans tenir compte d’aucune contrainte, comme le contexte, le 
domaine ou autres. Ce sont des comparaisons booleennes ne permettant pas 
souvent d’obtenir des resultats satisfaisants. 

Us existent aussi ce que l’on appelle des moteurs dits « avances », la plupart 
fonctionnent suivant le processus suivant : la requSte demandde par un utilisateur 
est analys6e puis d6compos^e en plusieurs termes et op^rateurs booleens. Les 
recherches consistent k trouver, puis k renvoyer k l’utilisateur les emplacements des 
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contenus contenant les termes de la requete par combinaison des operateurs 
booleens de la requete. 



Figure 5. Processus classique de recherche 


Malgre leurs performances, les resultats founds par ce type de moteurs sont dans la 
plupart des cas incomplets et impertinents, c’est-^-dire, que l’on peut avoir des 
resultats avec beaucoup de « bruit » comme on peut y ignorer beaucoup 
d’ informations pertinentes « silence ». C’est pour cela que nous proposons de 
coupler le mode de fonctionnement de ce type de moteurs avec les techniques 
issues de PROSGM pour apporter des ameliorations : au niveau de l’analyse des 
requetes, au niveau de l’analyse des contenus et aussi au niveau de la recherche, c- 
a-d. au niveau du « mapping » entre les requetes et les contenus. Ceci suivant la 
demarche ci-apres : 


Au lieu de chercher la liste des mots cl6s de la requSte directement dans les index, 
nous proc6dons tout d’abord k une analyse s£mantique de la requete pour g£n£rer 
l’6quivalent d’un arbre conceptuel (AC) d£crit pr6c6demment, puis nous faisons la 
projection de 1’ arbre obtenu sur l’ontologie du domaine et des contraintes (ODC) 
et enfin nous faisons des comparaisons avec l’index en utilisant les relations 
semantiques pour deduire les resultats de la requete. Cette demarche a l’avantage 
de permettre de limiter le domaine de recherche, bien cibler les intensions des 
demandes de l’utilisateur et les messages vehicules dans les contenus, afin 
d’augmenter les possibilites de recherche en se basant sur les relations semantiques 
(RS). Ce qui permet d’eviter la deperdition du sens au niveau des demandes 
utilisateurs, au niveau des contenus analyses et aussi au niveau des liens entre eux. 
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Figure 6. Processus de recherche en utilisant PROSEM 



Algorithms du processus general de recherche en utilisant PROSEM 
Entree: 

- requite utittsateur (R) 

- ensemble de documents a. analyser (ED) 

- ontologie du domaine et des contraintes (ODC). 

Sortie : 

- ensemble de contenus reponse(CR). 

Fo notions specifiques : 

- Les junctions (RS) et (LS),(IS), (PS) difinies pricidemment. 

Dibut 


Pour chaque requite (R) faire : 

-Action 0. (CR) - </> 

-Action 1. Construire I’arbre conceptuel (ACR) de (R) 
Pour chaque contenu (ED) faire : 

-Action 2jcharger I’arbre conceptuel (ACED) 

-Action 3. Faire la projection simantique de graphes 

ACR ’=PSG(ACR,ODC) 

- Action 4. Faire la projection semantique de graphes 
ACED =PSG( ACED, ODC) 
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- Action 5. Si IS(ACR \ACED ’) = 1 
-Action 6. Alors (CR)++(ED) 

-Action 7. Fin si 

- Action 8. Retour (CR) 

Fin pour 


5. Extraction contextuelle d ’informations 

L’extraction d’information consiste en 1’ identification des informations pertinentes 
dans un contenu pour une utilisation donnee. D’une maniere generate, 1’ extraction 
d’information part d’un texte ecrit en langue naturelle pour en extraire des 
informations souvent structures sous forme de bases de donnees, d’ index, 
d’ontologies, etc., pouvant respecter dans certains cas un schema donne. 
Contrairement k la recherche d’information qui consiste it analyser les documents 
pour renvoyer & Putilisateur les plus pertinents, l’Extraction d’information (El) 
analyse les documents pour ne renvoyer k Putilisateur que les informations 
pertinentes. 

La plupart des systemes d’ Extraction d’information se basent grossierement sur 
des taches qui consistent a analyser et a extraire tous les mots d’un document. 
L’Extraction d’information peut etre utilis6e dans plusieurs domaines comme : 

• la reconnaissance d’Entit6s Nomm6es ou les mots sont associ£s k des 
categories . 

• le peuplement d’ontologies ou les mots sont associ£s k des concepts, 
attributs ou relations. 

• Etc. 
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Figure 7. Processus classique d’extraction d’irrformation 

Les limites de ces demarches resident, comme dans les cas decrits precedemment, 
dans le fait que la comparaison des entites analysees se fait en utilisant la relation 
d’egalite booleenne independamment des domaines ou autres contraintes pour 
determiner si une entity ou un terme doit etre retenu « extrait » ou pas, ce qui est 
bien sur insuffisant pour l’Extraction d’ Informations pertinentes par rapport h un 
contexte. 

Pour remedier a ce probleme, nous proposons d’analyser la semantique de la 
source d’ information par rapport au contexte afin de mieux comprendre le sens 
exprime et le message vehicule pour ne retenir que les informations qui ont un 
sens dans le contexte en question. Nous pensons que la projection semantique 
decrite precedemment (PROSEM) peut avoir un atout considerable pour mieux 
analyser et extraire les informations pertinentes. Plus concretement, nous 
procedons A 1’ extraction de termes suivant une ontologie de domaine et des 
contraintes en utilisant les relations semantiques decrites precedemment. Cette 
approche permet de faire un zoom sur cette relation de comparaison des unites 
d’ informations pour retenir de nouveaux termes qui echapperaient aux techniques 
classiques et rejeter des termes qui seraient retenus. 

Prenons le cas de la reconnaissance d’entites nommees par exemple, qui est 
effectivement une sous-tache de l’extraction d’information. Elle permet de 
chercher et de classifier les elements d’un texte (mots ou groupes de mots) suivant 
des categories predefinies. Ces elements peuvent etre des personnes, des 
organisations, des dates, etc. Les systemes actuels utilisent des dicdonnaires 
« d’entites nommees » qui recensent tous les noms de personnes, toutes les villes, 
toutes les dates, organisations, etc. puis precedent a la recherche/comparaison de 
tous les mots d’un document dans le dictionnaire. Si le mot ou groupe de mots 
existe dans le dictionnaire, nous lui associons la categorie correspondante, sinon il 
n’est pas retenu dans la classification. 
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Exemple'. Jean reside a Paris depuis 15/11/2000. En comparant avec un 
dictionnaire d’entite nominees, nous pouvons deduire que : Jean est one personne, 
Paris est une ville et le 1 5/1 1/2000 est une date. 

Par contre, si nous rencontrons, dans un document, les mots : un avocat vereux. La 
recherche de ces mots dans un dictionnaire d’ entity nomm6e depend du domaine 
que l’on veut 6tudier. Les syst&mes existants ne permettent pas de rSsoudre ce 
probldme et cette ambiguity. C’est pour cela que l’on propose d’Stendre les 
techniques existantes pour d’une part tenir compte du domaine pour la 
desambigiiisation et d'autre part augmenter la probability de reconnaitre et classifier 
un maximum de mots d’un texte. Nous pensons que PROSEM peut jouer ce role de 
raffinement du traitement du sens des mots dans le processus de reconnaissances 
d’entites nominees. 



Figure 8. Processus d’ extraction d’information en utilisant PROSEM 

Les algorithmes du processus d’indexation decrits precedemment peuvent etre 
ameliores et augmentes de modules d’hierarchisation et de categorisation pour la 
prise en charge de l’Extraction d’information dans le contexte. 


Algorithme du processus general d'Extr action d’information en utilisant 
PROSEM 

Entrie : 

- ensemble de documents ou elements a indexer (ED) 

- ontologie du domaine et des contraintes (ODC). 
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Sortie : 

- Information extraite (IE). 

Fonctions spicifiques : 

- INSERT( ( IE )Xi ) : permet de creer une nouvelle entree Xi dans I’ensemble 
des informations extraites. 

- Les fonctions (RS) et (PS) definies pricidemment. 

Debut 


Pour chaque (ED) faire : 

Pour chaque iliment (Xi) de (ED) faire : 

- Action 0. Si 3 m€ RS(Xi) / m € (ODC) 
-Action l.INSERT((IE)Xi) 

- Action 2. Fin si 
Fin pour 


6. Quelques elements pour 1’ evaluation des performances 

Pour calculer et evaluer les performances de PROSEM, nous avons calcule et 
compare les mesures de probabilite d’apparition d’un mot ou un groupe de mots 
dans un corpus ainsi que les mesures de probabilite que ce mot ou groupe de mots 
soient pertinents par rapport a une utilisation donnee, ceci en tenant compte ou pas 
de PROSEM. 

La probabilite d’apparition d’un mot dans un document 

Notre comparaison a ete basee sur le calcul de probabilite d’apparition d’un mot 
dans un document. Cette probability peut etre calcul6e de plusieurs fa$ons et pour 
cela il existe des methodes et techniques. Mais pour des raisons de complexity, 
nous avons choisi la plus simple, celle qui permet de calculer cette probability de la 
manidre suivante. 

Soientm ,CetP m , unmot m dans un corpus C et P m la probability d’apparition 
de m dans C. 
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Alors : P m = 


Nb 


Occ(m) 


Nb 


, ou Nb^,^ est le norhbre d’ occurrences de m dansC , 


mots(C) 


et Nb est le nombre de mots dans C . 


La formule de Poincare : 

Cette formule consiste k calculer la probability d’union de plusieurs yv^nements. 
Elle s’exprime : 

Pom tout entier n > 2 et tous yvynements Aj A n : 

J > (U4) = E' > (4)+S<-1)‘* 1 H P,A « n-n^) 

1=1 1=1 k=2 <*2 - n 

Appliquie d. PROSEM, donnera : 

Soit m un mot de la requete utilisateur et P m la probability que le mot m soit dans 
le texte ou le corpus utilise. Soit RS(m) 1’ ensemble des mots lies a m par les 
relations semantiques. 

La probability que la requete contenant m donne un rysultat peut Stre calcuiye en 
utilisant la formule de Poincare comme suivant : 

|RS(m)| |KS(m)| |R5(m)| 

P(m) + P( |J m i ) = P(m)+ Y J P(m i )+ ^](-l) t+1 £P(m w n...nm ik ) 

f=l i=l k=2 l^i 1 <i2<~<:ij t ^ii 

Cette formule peut etre amyiiorye dans le cas d’une « requete semantique» 
composee de plusieurs mots representant un sens particulier. 

D’aprys ces calculs, PROSEM apporte sans doute une amyiioration trys importante 
en comparaison avec les methodes classiques. Du fait que la probability qu’un mot 
m satisfasse une demande est toujours inferieure a la probability que m + LS(m) 
satisfassent la meme requete. 

Probabilite de la pertinence d’un mot par rapport a un contexte 

La formule de calcul de probability d’apparition d’un mot dans un corpus ne tient 
pas compte de la notion de contexte, mais si l’on considere tout le processus de la 
demarche PROSEM, cette probability peut etre corrigee par une fonction tenant 
compte du contexte. Ceci consiste a calculer, en plus de la probability d’apparition 
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d’un mot dans un corpus, la probability d* apparition du meme mot dans l’ontologie 
du domaine et des contraintes (contexte). La formule de calcul de probabilites 
definie precedemment peut etre utilisee a nouveau pour la prise en compte du 
contexte. Le produit des deux probabilites permet d’obtenir la probabilite globale 
correspondante k la probability d’ apparition de mots (termes) pertinents dans le 
mSme document. La formule pr6c6demment devient : 

|SS(m)| \OD\ 

P m. pertinent = P ( P ( \J m i ) . RS(m) est l’ensemble des mots lies a m 

1=1 ;=i 

mi^RS(m) mieOD 

par les relations semantiques et (OD) l’ontologie du d om aine. 

7. Conclusion et perspectives 

Bien qu’ils existent des systgmes capables d’analyser et de traiter des contenus 
d’un point de vue semantique, la relation qui lie le contenu a son utilisation est 
generalement peu ou pas du tout prise en compte. En diet, cette relation peut etre 
d’une extreme complexity qui necessite des approcbes et systemes intelligents 
difficiles a mettre en oeuvre capable de s’adapter en fonction du contexte 
d’utilisation. Dans cette article, nous avons propose et montrer comment l’on peut 
utiliser PROSEM (PROjection SEMantique), une approche capable de gerer la 
s6mantique dans son contexte, afin d’amdliorer les performances de certains 
domaines d’ application comme 1’ indexation, la recherche ou encore 1’ extraction 
d’information. Cela permet de rdpondre aux soucis relatifs & des dnonc6s ou k des 
mots auxquels peuvent correspondre plusieurs et diffSrentes structures sSmantiques 
en analysant fidSlement les relations symantiques que peuvent entretenir les mots, 
les phrases, voire les expressions figyes ou mytaphoriques au sein d’un meme texte 
et qui releve d’un meme domaine, ainsi que les regies de raisonnement qui leur 
sont applicables. 

Nous pouvons bien evidemment l’etendre a d’autres applications que nous 
ytudierons dans nos travaux futurs, comme par exemple la fouille symantique des 
donnyes, la dytection de donnyes sensibles, la classification de documents, la 
gyndration des topics maps, la gynyration automatique de textes, etc. 

Un autre aspect important qui va etre traite consiste a afEner, a quantifier et k 
mesurer avec precision cette amelioration ( pertinence et optimisation) dans des cas 
d’utilisation particuliers bases sur un corpus, une ontologie du domaine et des 
contraintes ainsi qu’une utilisation donnys. 
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Approfondir 1’ etude des relations semantiques, deduire 1’ ensemble de toutes 
relations semantiques potentielles qui puissent exister entre les mots puis specifier 
les traitements a associer a chaque relation ou type de relations dans la demarche 
PROSEM sont d’autres aspects qui pourront etre developpes dans ce travaiL 


8. Bibliographie 

The GATE platform: http://gate.ac.uk/ 

H.FADILI et M.CHAKIRI «Approche bases sur une « Projection semantique » 
pour la comprehension automatique du texte : du mot au texte en passant par la 
locution», SITACAM, Agadir, 2009. 

HERNANDEZ N., Ontologies de domaine pour la mod61isation du contexte en 
Recherche d'information, Thdse de doctorat, University Paul Sabaltier de Toulouse, 
2005, 248 p. 

BACHIMONT B., Modelisation linguistique et modelisation logique des 
ontologies : l’apport de l’ontologie formelle, in Actes des joumees francophones 
d’Ingenierie des Connaissances (IC’2001), Presse Universitaire de Grenoble, 2001. 

AMARDEILH F., LAUBLET P. & MTNEL J.-L., Annotation documentaire et 
peuplement d'ontologie k partir d'extractions linguistiques, in Actes de la 
Conference Ingenierie des Co nnais sances (IC’05), Nice, France, 2005, 12 p. 

H. C unningham, D. Maynard, K. Bontcheva, V. Tablan. GATE: A framework Mid 
graphical development environment for robust NLP tools and applications. 
Proceedings of die 40th Anniversary Meeting of the Association for Computational 
Linguistics (ACL ’2002), Philadelphia, July 2002. 

Y. Li, K. Bontcheva and H. C unning ham. Adapting SVM for Data Sparseness and 
Imbalance: A Case Study on Information Extraction. Natural Language 
Engineering, 15(02), 241-271, 2009. 

K. Bontcheva, V. Tablan, D. Maynard, H. Cunningham. Evolving GATE to Meet 
New Challenges in Language Engineering. Natural Language Engineering. 10(3/4): 
349-373. 2004. 

H. C unningham, D. Maynard, K. Bontcheva, V. Tablan. GATE: A Framework and 
Graphical Development Environment for Robust NLP Tools and Applications. 


- 229 - 


LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Proceedings of the 40th Anniversary Meeting of the Association for Computational 
Linguistics (ACL'02). Philadelphia, July 2002. 

John Davies, C. Bussler, D. Fensel and R. Studer. The Se mant ic Web: Research 
and Applications. First European Semantic Web Symposium. Springer LNCS 
3053. May 2004. 

Sofia Pinto, Steffen Staab, York Sure, Christoph Tempich. OntoEdit Empowering 
SWAP: a Case Study in Supporting Distributed, Loosely-Controlled and evolvInG 
Engineering of oNTologies (DILIGENT). C. Bussler and J. Davies and D. Fensel 
and R. Studer, First European Semantic Web Symposium, {ESWS 2004}, volume 
3053 of LNCS. Springer, Heraklion, Crete, Greece, pp. 16-30. May 2004. 


- 230 - 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Fault detection system for Arabic language 

Riadh BOUSLIM 1 , Houda AMRAOUI 2 

1 University FSJEG Jendouba T unis ia 

bouslitni.riadh@hotmail.com 

2 University FSJEG Jendouba Tunisia 

houda. amrawi@gmail.com 


1. Introduction 

The study of natural language, especially Arabic, and me chanisms for the 
implementation of automatic processing is a fascinating field of study, with various 
potential applications. The importance of tools for natural language processing is 
materialized by the need to have applications that can effectively treat the vast 
mass of information available nowadays on electronic forms. Among these tools, 
mainl y driven by the necessity of a fast writing in alignment to the actual daily life 
speed, our interest is on the writing auditors. 

The morphological and syntactic properties of Arabic make it a difficult language 
to master, and explain the lack in the processing tools for that language. Among 
these properties, we can mention: the complex structure of the Arabic word, the 
agglutinative nature, lack of vocalization, the segmentation of the text, the 
linguistic richness, etc. 

In that perspective, our project aims to develop a system to detect errors in spelling, 
structure and conjugation of the Arabic language, hi this article we will proceed as 
follows. In the first section we’ll present some approaches used for the correction 
of errors. The second section will be devoted to detailed studies of our proposed 
system. In the last section, we’ll perform experimental tests to evaluate the 
performance of our system. 
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2. State of the art 

2.1. MASPAR 

A multi-agent system is a system of agents’ group that communicate with one 
another to provide answers about a goal to achieve. 

MASPAR is a system of analysis of Arabic texts based on the approach of multi- 
agents. It consists of a set of agents, using a direct co mmuni cation by sending 
messages. These agents work together in order to make syntaxes’ analysis of a 
sentence given by the user by determining its syntax composition, (tree, je ne sais 
pas si ca existe! ! !c un mot relativement technique, il faut voir...) 

2.1.1. MASPAR System Limits 

The major drawback of such system is the time taken by the agents for 
communication and interaction. 

One might also note that the MASPAR system does not detect errors of 
conjugation. Also, it has a non-ergonomic interface. 

3. Proposed System 

3.1 . General Description 

Our system (Figure 1) is designed to detect errors in spelling, structure and 
conjugation in a non- vowelized Arabic text. It consists of five phases, each uses 
the information received from the previous phase to finally get a text con taining the 
least number of mistakes. 

The segmentation phase consists on dividing the text into sentences and then into 
words. The lexical phase subsequently receives the word and checks its existence 
in the database of words. 

After verifying that this word belongs to the language, the phase labelling 
associates the word it has received the possible morph syntactic labels, this make s 
the word ambiguous, hence the need to remove this ambiguity by passing phase 
disambiguation, which in applying certain rules, is used to assign to this word the 
most suitable label. 
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To correct the word “Wc”, we must compare it with the database of words that we 
have, if this word belongs to our dictionary, it means that “Wc” is a correct word 
otherwise our system will detect a misspelling. 


The algorithm then verify the proper structure of this sentence, otherwise the 
system will detect a structure fault. Finally, our system is also capable to detect the 
faults of conjugation in a sentence. 


We, first, introduce the general architecture of our system. 




Data base 
XML for 
words 



Type (or types) 
of Word 



Sentence structure 


Disambiguation 

' 






Type unambiguous 
of Word 1 


r 


Detecting faults 







Data base 
XML of 
structural 


Data base 
XML of 
conjugation 
rules 

rules 






Type unambiguous 
of Word n 


Figure 1 : Proposed system 
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3 2 . Detailed Description 

When receiving an electronic text to analyze, our system launches the first phase 
which is segmentation. This phase begins with the identification of the text’ 
sentences based on punctuation signs then on the words in each sentence. 
Subsequently, the words in each sentence will be transferred one by one to the 
lexical phase. 

This will verify whether the word belongs to the language or not by checking its 
existence in our database of words. Subsequently, the word is sent to the next 
phase. The phase label is responsible for providing possible morph syntactic 
characteristics of each received word (from the lexical phase). This means that a 
word can’t go to the labelling phase unless its belonging to our database has been 
confirmed within the lexical phase. 

Because each word can have several labels, the analysis of the word can face 
certain ambiguity. That’s why we must use rules to reduce this 
ambiguity. Therefore, disambiguation phase is triggered to limit the number of 
labels associated with the word and assign a single label at a time. 

Once the ambiguity is removed, we get into the final phase of the system which 
role is to apply rules that enable to compare the analyzed structures. This helps 
detect errors in structure and conjugation. 


ALGORITHM Editor 

STARTERS: Wc: die word of the sentence 

Phrase: the input sentence 
BaseXml: the database contains dictionary words 
BaseReglesStruc: the database of structural rules 
BaseReglesConjug: the database according to the rules of conjugation 

START 

FOR each Phrase DO 

FOR each Wc of Phrase DO 

If (Wc, BaseXml) = false then 
Write (Wc 'is incorrect') 

Otherwise 

Type ReccupererType (Wc, BaseXMl) 

Structurephrase Type 

End if 
End For 

Compare (Structurephrase, BaseReglesStruc) 
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If (compare = true) then 

Write ('the structure of the sentence is not correct 1 ) 
Otherwise 

If the structure contains a verb then 

Apply (BaseReglesConjug, Structurephrase) 
End if 

If (Apply=false) then 
Write f the combination is not correct 1 ) 

End if 
End if 
End For 

END. 


32.1. Segmentation 

This phase consists on dividing the text into sentences and the sentences into words 
based on markers at the be ginning and the end, for example points, semicolons, 
colons. . . 

322. Lexical Analysis 

This phase checks the belonging of each word to the language, obtained from the 
segmentation phase based on the data base of the words available. 

Verify the existence of the base in the lexicon : We must ensure that the words 
introduced constitute the basics of the Arabic language. For that reason, we verify 
the existence of the base in the lexicon. We have to consult the database of Arabic 
words, if the extracted base coincides with a word from the database; we conclude 
that the word exists in Arabic. 

323. Labelling 

This operation aims to add to the words linguistic information with morphological 
or syntactic nature in order to identify them. 

We have presented several possible tags of the word minimum (prefix + base + 
suffix): 

However, the lack of vocalization does not accurately determine the proper 
etiquette of the word which causes a certain ambiguity. To reduce this ambiguity, 
we will proceed to the next step. 
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32.4. EHsambiguation 

A disambiguation is needed to limit the number of labels of these words and 
subsequently improve the detection of grammatical errors, 

CompadbiUty Rules: It can reduce tits ambiguity of a wend by associating it with 
one type at a time, so the sentence containing the ambiguous word has more than a 
structure based on the number of labels dial word. Subsequently, the system 
as sociates to the word the suitable type according to the structural rules. 

32 J. Dr. tec ting faults 

For the detection of toolts, we can use rules of grammar. These rules describe 
correct grammatical patterns. For t Ms, we have defined a basic structure rules and 
Mother different b arsis for the conjugation rules. If same text does not match any 
rule, a structural or conjugal error is detected. To detect structural faults, we'll 
compare our sentences' structure with tire basic structural rules, if this structure 
does not coincide with any rule, then a lack of structure will be detected, otherwise, 
if the structure is correct and if it contains a verb, since the combination only 
applies to the verb, our system will have access to our database conjugation, 
satisfies a certain compatibility between pre-end post-basic core that typically 
accompany Ihe verb, if our sentence presents a bad eombmatkai wheat a feiM is 
detected. In the end, the user receives a text containing errors detected with 
staining of these feolta, each depending on the type of errors detected. 

32.6 Jhe databases used in die system 

<MOTS> 

<Noms> 

^tJomsPropres> 

<NomsPropresFeminins> 

<N o mP rop re F e mi n rn <^Nom Pro pre Fern in i n > 

<No m P rop re F e mi n in >J^' </N o mP rop reF em i n in > 

<NomP rop reF e mi n i n <J Mom Pro pre F emin i n > 

</Nom sP rop res F em i nin s > 

<IMomsPrapresMasculinB> 

<No m P ro preM asc u h n <f Mo m Pro pre M a sc u I in > 

<No m P rop reM a s c u li n o mP rop reM a s c y li n 

<No mP ro p reM a sc u fin > </Mo m Pro p re M a sc u I rn > 

</MomsPropresMascuiins> 

</NomsPropres > 

<jNlomsPlyrieJs> 

XML (teabtM for me 
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tjtfi xssmuibciss lANm&iHBW ; 


To detect if fine spelling of a gfam worn is correct or oat, te verification peocem 
ran through tbs XML tree of tbs Jetion&iy sssid compare tti$ word with the word 
list file. It sefe oat below a portion of our base words. 

SML Dm Bam for the of itruefcnral frails 

After Bgcerfedmi]® thsi dig gpssszHicd words are spelled eoir^ctiy. we gg&s&a at tbis 
lwrt whedur the sentence sSryetiir^ Is coherent or not by comparing it with the 
'mm of the tfnwiwft we ^<^4^ XML file with the fctiit wmg form: 

<ReglesApplrcab4es > 

<Re g 1 es Ph ra sesVerbal es > 

<regle >verbe NomPropreFeminin </regle > 

<regle > verbe NomPropreMasaiGn </reg!e > 
<regle>verbe NomPluriel <^regle> 
</RegfesPhrase5Verbale5> 

<JtegtesPhrasesNomtnafes> 

<regle>fioniPropreFeminin verbe </regle> 
n^egle>NomPropreMasculin verbe </regle> 


XML M Base for Ssteeting firatta 

Our system cm also dteet corgugation To handle tins, we used an XML fOe 
m fellows: 

<PronorriPersonnel valeur= n ^ D, > 

<PresentSimple> 

<prebase>*</prebase> 

<PostBase>aj</PcstBase> 

</PresentSimple> 

<PresentNegation> 

<prebase>*</prebase> 

<PostBase>'j^/PostBase> 

</PresentNegation> 

</PronomP0r5onnel> 


4 . T®t and Vdidaiion 

We dicosre to assoc s the performance criteria that an available: to eegaaomics and 
to respond# toe chosen by our spl^ra. 
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Regarding ergonomics, performance analyzers must have a user-friendly interface, 
presenting a number of functionality to help users better handle this interface to 
manage the features offered by the system. 

The speed of response is another important constraint for parsers for, to be useful 
in the real world, they must return a response very quickly. 

4J. Experiments 

Our experiments on the system relate texts of Arabic literature in various 
fields. We introduced those relating to the field of Medicine, Marketing, 
Economics and Arabic grammar. 

(-): If no fault is detected. 

(+): If an error is detected. 


Sentences 

Detection of 
spelling 
errors 

Detection of 
structural errors 

Detecting of 
conjugation 
errors 


(-) 

(-) 

(-) 

jS j j 

(+) 

(+) (+) 

(-) 

US&A i jfai (> (v-a. && 

(-) 

(-) 

<-) 


(+) 

(-) 

(-) 

4 ilaAjSfl jl (IiULdJt 

IjjuJy 

(+) 

(-) 

(+) 


(-) 

(-) 

(+) 

{J {ftjul 

(-) 

(-) 

(-) 

(jdtjSi (jUjt iaLj 

(-) 

(-) 

(+) 

(jatjSi 4>^{ 

(-) 

(-) 

(-) 

tWO*** 3 

(-) 

(-) 

(+) 


(-) 

(-) 

<-) 


(-) 

(-) 

(+) 

<UaJI 

(-) 

(-) 

(+) 
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Ijjuij fi (A 

(-) 

(-) 

(-) 


(-) 

(-) 

(+) 


(-) 

(-) 

(-) 

&& J** cji jS^sl 

(-) 

(+) 

(-) 


To evaluate the error detection, we use the rate of accuracy (standard indicator 
classification [4]). This indicator is between 0 and l.One being the perfect result. 

To calculate this index, we needed to appoint different sets. 

Let D be the total set of words, incorrect words D + and D-words correct. D + and 
D-form a partition of D. Let R be the set of words identified as erroneous. Some 
words are part of R + D D-other. 

The precision is out as an index of the proportion of words identified as 
erroneous. Its formula is: 

Detection Accuracy = | D + fl R | / 1 R | 

42 . Results and interpretations: 

We note that our system has a good detection for errors in spelling and 
structure. (Indicator precision = 1 for the detection of spelling errors and 0.7S for 
structures). Indeed, we get a quick response if the word entered is incorrect or the 
structure is wrong. We therefore have a very high proportion of errors actually 
detected. We can also note the good accuracy of the wrong word or structure which 
facilitates the coloration of errors. 

We can also note that our system has a medium detection for errors in 
conjugation (Indicator accuracy = 0.56). This is for several reasons: 

Note first the difficulty of the Arabic language in particular as regards to the 
conjugation. 

Then, our system took only where the verb is conjugated in the simple present and 
present Negation and verifies the compatibility between pre-and post-foundation 
bases with different personal pronouns. By cons, although the average conjugation 
fault detection, our system provides a new paradigm as it has treated the most 
difficult in the Arabic language is the conjugation. 
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. Brors detection 

percentages of 


Detection of spelling 
errors 

■ Detection of structural 
correction 

□ Detection of conjugation 
errors 

Histogram showing the 
detection system 


5. Conclusion and Perspectives 

The information retrieval and text mining in Arabic is a major challenge. We are 
interested in this work to develop an application to detect errors in spelling, 
structure and conjugation in the Arabic text. 

The development of this project allowed us to familiarize ourselves with the Java 
language, a language in the promising field of programming technologies. It 
allowed us to consolidate our knowledge on various techniques including 
manipulation of XML. 

The work we have done is a response to the objectives set at the outset of the 
project. However, it can evolve by considering several extension elements. 

We can consider adding propositions for the wrong words in order to improve the 
performance of our system. We can also add more functionality to our tool such as 
translating the input text from one language to another following the user's choice. 
We can also handle the case semantics and the texts vowels. 
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1. Introduction 

Experience acquired within the Lase project [Tazzit et Al. 2009, Sabri et Al. 2006] 
has led us to develop and test indexing strategies for different types of Arabic 
corpora [Maamouri et Al. 2004]. In this paper, we report our use of indexing 
techniques to perform batch statistical analysis of the Quran, namely to count 
occurrences of a word or word phrases. Although this problem may appear simple, 
it hides underneath several computing challenges. We present our results as a gift 
for God lovers. 

2. Indexing the Quranic Corpus 

2d. Quranic Corpus 

We used the Quranic corpus used by most sites, and which is available at 
[quran.com]. There 

are different formats available. We chose plain text with simplified script (no 
tashkeel), a 

version of the text with minimal pre-processing overhead, namely no tashkeel and 
other punctuation elements. Each line of the text contains a chapter/verse 
combinations in the 

following format: 

1|1|| .|H * l*il y ja-u y jaJa 

Chapterld | verseld | verseText 
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The file is parsed and the whole Quranic corpus is loaded into memory in few 
milliseconds, 

as a Quran object, containing a list of Verse object, each verse has meta 
information plus a list of word objects, each Word has the text and a list of 
Location objects. A Location object is all 

of the word offset in the Verse and its order. This is the object used extensively for 
search, since it indicates the location of a word and is used to identify repetitions. 

After the file is parsed, the Quran index is constructed. This is explained in the 
section below 

22. Inverted Index Construction 

To build the index, the program must loop over all the verses/chapters, and extract 
their words. 

When a word is encountered for the first time, it is added to the index; if it already 
exists there, then a new location is added to its list. The algorithm below explains 
this process. 


For each verse V 
parse word list -> list(W) 

For each word W 
If INDEX contains W is false 
add W and W. location to Index 
Else 

fetch W in INDEX 

add new location to W 

Figure 1: Algorithm, for indexing the quran 


It is important to note that the index should be clean from frequently used 
grammatical 

particles (j< ^ ^ , and other words that are meaningless and constitute noise in 

processing, also known as stopwords. Moreover, other indexing processes such as 
tokenization and lemmatization to extra word roots are usually necessary however 
not in this context where we consider each lemma being unique. 
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3. Counting Repetitions 

31. Single word repetitions 

Once the index is constructed, information about the different locations of each 
word is 

available and that corresponds to the number of repetitions. The more locations a 
word has the more it is repeated in the text. 

32. Multi-word repetitions 

For finding word phrase repetition, more thorough index analysis is necessary. We 
undertake 

a straightforward approach in counting phrase repetitions by following the 
algorithm below. First we discard non-repeated single words, and hence construct a 
list of, repeated-words, which are words with more than one location (minus 
stopwords). For each word in the list, and for each of its locations, we search for 
words with locations directly following the current location. 


For each word W in list of repeated words 

Fetch location list for W-> locationList //fetch repetitions 

For each location Loc in locationList //for each repetition 

nextLocation = W.loc + W.length + 1 ; // determine next location 

nextWord = getWordAtLocation( nextLocation ); // ..and next word 

Fetch location list for nextWord -> locationList2 //fetch all locations for that 

word 

For each location Loc2 in locationList 
If( loc2 = loc ) 

Results. add( loc2, nextWord); 


Figure 2: Algorithm far finding multi-word repetitions 

4. Experiment 

The table below describes the different processing steps and performance costs 
associated 

with them. The machine is a Centrino dual core processor (1.6G) and (2G) of 
RAM. Parsing file, building index, search 1 word repetitions, search multi-word 
repetitions 

And here are some results for the data as follows: 


*• 245 *• 





LES SESSOURCES LANG4.GIERES « CONSTRUCTION ET EXPLOITATION 



Figure 3: Graph of number of words vs. number of repetitions 


The table below shows some of the results foi 




Most 

repeated 

word 

Number of 
repetitions 

Total number 

of 

repeated 

words 

Processing 

time 

Single Word 

W 

2265 

1600 

< Is 

2-word phrase 

NA 

NA 

NA 

4-5 mins 


5. Related Work 

Concerning Arabic Indexing, these exists some work related to Arabic morphology 
analysis 

[Sawalha and Atwell ]» or how to extract the toots from Arabic words. As far as the 
Qvumn is concerned, an interesting project done by [Dukes and Hasbeh 2010], 
consists of constructing an ontology of the concepts in tine Quran, as well as a 
grammatical tree analysis. There isn’t much work readily available on counting 
repetitions of the Quran [Ali 1427], but it does not explain the technical details 
behind it 
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6. Conclusion 

We have successfully implemented an index and a program for searching 
repetitions wi thin 

an Arabic text. The method has been tested on the Quranic corpus and interesting 
results were shown. However, currently tashkeel is not supported and does have an 
impact on makin g distinctions between words. 

7. Future Work 

We are in the processing of generalizing this algorithm to support an infinit number 
of words in a phrase; consequently, the processing time should be exponentially 
higher. Hence, it is also considered to distribute the algorithm using the latest 
technology known as map/r educe. 
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1. Back 'round and Motivation 

We describe an Annotation Tool for adding morphological and syntactic 
annotations to texts. The Annotation Tool is being developed in the context of a 
larger application: the Arabic Reading Assistant or ARA for short (Cavalli-Sforza 
& Chekayri, 2010). The ARA system is targeted at helping students of Modem 
Standard Arabic (MSA) read increasingly complex texts. The texts’ vocabulary and 
grammar content reinforce already acquired language concepts and challenge the 
learner with new ones, leading her along a predefined language learning curriculum 
(broadly based on Brustad, Al-Batal., & Al-Tonsi, 2004, 2006, 2007). While taking 
into consideration her apparent level of mastery. The Annotation Tool is used to 
annotate the texts with the specific lexical, morphological and grammatical 
concepts that are targeted by the curriculum. While our objective in developing the 
Annotation Tool has been specifically to support our language learning application, 
by augmenting texts with annotations relevant to selecting passages for testing and 
tracking student learning, the tool itself is designed to be easily repurposed for 
other applications and languages. 

The version of the tool described in this paper represents an intermediate version 
intended for internal use, and still suffers from some design and development 
faults. We are currently revising the tool to improve its ease of use and increase its 
functionality. In the remainder of this paper, we will refer to the tool itself as the 
Annotation Tool or AT, reserving the name ‘annotator’ for the user of the tool, the 
human annotator. 
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2. What is an Annotation? 

Most generally, an anno tation is a group of one or more feature values that may be 
associated with a text fragment - a single word or a multi-word segment of the text. 
In our system, we distinguish between 

• morphological features, which pertain to individual words, even though 
those words may be compounds including various prefixes and suffixes; 
and 

• grammatical features, which provide information about multi-word 
fragments in the text. 

Jointly the two are referred to as morphosyntactic features. The distinction 
between the two, at the level of the AT, is not a strong one. It mostly affects which 
menu the features and their values are chosen from, but does not substantially 
impact the way in which they are handled the AT or the annotator. 

An example of a morphological feature is the part of speech of a word or suffix 
(e.g. for personal pronouns suffixes) with values such as Noun, Verb, and so on, or 
a feature such as Gender, with values Feminine or Masculine. An example of a 
grammatical feature is the construction iDafa which would be associated 

with a fragment at least two words long and possibly longer. 

While the most basic annotation associates an individual feature value with a text 
fragment, some annotations are complex annotations and include a collection of 
feature values. These collections, called Grouped Annotations, can be composed 
via the interface, given a name and saved for future reuse. For example, the 
annotator may find it convenient to have a complex annotation that includes the 
features values Noun, Human, Feminine, Plural, Sound. This group can be created 
once, and then named, saved, and reused. It can also serve as a basis for creating 
more specific and complex annotations, such as the Nominative and Genitive-or- 
Accusative variations of the above. 

When associating annotations with a text fragment, only the feature value is stored. 
The feature name is implicit and values should be chosen to be unique and, 
possibly, mnemonic. Should this constraint prove to be difficult to abide by, it 
would not be difficult to change the system to store the feature name as well and 
thus create a ‘namespace’ for feature values to tolerate duplicate values with 
different meanings in different feature namespaces. 

The AT stores annotations in an external file that is separate from the text to which 
the annotations refer. The file is in the same directory and has the same name as the 
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text file but uses a different extension. 1 The external file is readable via a text 
editor, but should not be manually modified. For example, in the current format 
for external files, the annotation line “ip*4*264 : associates the annotation 

Present (internally represented as i p) with the text fragment (word) i j_*_j starting 
at position 264 and of length 4. Each line in the annotations file contains all the 
feature values associated with a specific fragment. Annotations can also be nested 
within each other. For example, the annotation “i Da : 9 : 0 : Ue j u ; i ” says that 

the fragment “ u> j u . i ”, starting at character 0 of the file and of length 9 is an 

iDqfa. Associated with the same fragment, there may be annotations for individual 
words, which would have their own entry in the file. For example, for the word 
‘o_j| ’ one might find “s, m , NOUN : 3 : 0 : i ”, indicating that this word is a Noun 

and is masculine and singular. 

The source of the annotations themselves are two feature-value ‘trees’, one for 
morphological features and one for grammar features, that are created via a special 
interface provided by the system and described in greater detail below. 

3. Displaying Annotations 

Figure 1 shows the main window of the Annotation Tool. Below the menu and 
some general file information, the right uppermost pane displays the text itself. 
The annotations a in the text are displayed in two different ways. To the left of the 
text pane is line-by-line listing of annotations associated with each fragment, word 
or phrase; each feature is displayed on a separate line. By default, the display is 
ordered by starting position, which causes annotations pertaining to the same 
fragment to be positioned in close proximity to each other. 


1 In the future, it may be desirable to relax this assumption and allow the annotation file to 
have a different name, so that the same text can be annotated differently. However, at 
present, this is does not appear necessary. 
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Figure 1: The basic Annotation Tool interface showing a text with nested 

Below the line listing of features, a tree view, also sorted by position of the 
fragment in the text, shows the nesting of annotated fragments within each other. 
The root of the tree is the entire text. Contained annotations are shown as the 
children of the containing ones if the containing nodes are expanded. The tree 
provides a high-level view of all the annotations in the text and can be used to 
navigate through them more quickly than by scrolling through the single feature 
display of annotations. The Contains button located between the two panes, if 
clicked when a fragment containing other annotated fragments is selected, causes 
the feature display to focus on just the contained fragments (in Figure 1, only the 
features for would be displayed). Clicking on the Is Enclosed In button to its 
side performs the opposite operation: given a selection that represents an annotated 
fragment embedded in another, it switches the display to focus on the containing 
fragment. The button refreshes the display, returning it to the original one- 
feature-per-line display. Finally, the button is used to delete one or more feature 
annotations selected from the one feature per line display. 

Clicking on any of the tree nodes changes the highlight in the text area to point to 
that word, as does clicking on a feature line in the detailed feature display. In the 
future, the three panes (tree view, feature view and text) will be completely 
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coordinated so that clicking in any one of the three will cause the other two to 
(reposition the highlight on the selected fragment. 

4. Adding Annotations 

The AT supports adding annotations to texts in two different ways: manually and 
by choosing among annotations suggested by an external program. Figure 2 shows 
a simple example of adding a manual annotation. To add an annotation manually, 
the annotator selects from the feature hierarchy shown below the text and applies it 
to the desired text fragment by using the Add button. More details are provided 
below about the construction of the feature hierarchy. 


Arabic Annotator 


Load Text ] ^ [ Load Annotations ] ^ [ Save Annotations ] w [ Suggested Annotations ] ^ [Create Annotation Tree] 

T ext Information 




File Name lbnBatuta.txt 


Word Count 


120 


File Path C:\Documents and S ettings V'.dministratorSMy DocumenlsSReseardASeed Fundings: Annotated Exps 15 


Features Control 


Text Control 


Annotations Fragment Start 

Adiective-Comparative ■ ADJjEuMP | J*bi 1 1 1 

Elative - <o 11 


Length 

4 

4 


fi 


Contains 


Is Enclosed In 


0 







h ^ i 


^jl ^isJl Li ^ i ^Jl hia , jjI J yet Ui> 

die- y . nil UJ) > « jjI J^di$ t y >1 — ul ,j y^ y J| m) 

•Cj ^jjjl jjjiiul hia ^jj| j yu ,jhk 

yj^L\ > i ^jI y j ^'1 1 ^ 

1 y& ^5 Aifil -Ja ou j^l J jfci s 3 k— 

1 1 jj—i .j! ' I )L* -Us jdu J j yu jLlla >> )Lila 

y -'" i y di ^ r * . ^1 > 4 . ^-lI . | jL. y I y I y j aa ■ **. 


ll . 


h h . 


Add 


Undo 


Create Named 


Morphological Features | Gr ammatical Features 


h root 


- Part-of-S peach 1 
Adjective 1 ADJ 

S Adieetive-Comparative 1 ADJ_C0MP 
Elative 1 <e 
0 Gender 

Masculine 1 m 
Feminine: f 
13 Number 1 

Adiective-Numeral 1 ADJ_NUM 


Figure 2. Adding annotations manually to the text with the feature hierarchy 


The annotator can select an annotation and apply it repeatedly to several text 
fragments, or select a fragment of the text and apply different annotations to it. In 
addition, as mentioned earlier, it is possible to select a combination of annotations, 
assign a name to the combination and save it so it can be reused elsewhere. The 
named combinations are stored with the AT’s resources, not with the texts, and are 
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explicitly loaded into the AT, as are the tree-structured feature menus. The tab 
named Saved Combos gives access to those named combinations. Using a named 
combination allows multiple feature values to be associated with a fragment with a 
single Apply action. 


The feature hierarchy approach, which is used foronorphological and grammatical 
features, although using different hierarchies, helps the user annotate correctly and 
reasonably quickly. The designer of the feature hierarchy, who must have good 
linguistic knowledge, insures the hierarchy’s correctness by organizing features 
and their values in such a way that the descendants of a node only include features 
relevant to the ancestor nodes. For example, the descendants of a Part-of-Speech = 
Noun node do not contain a Tense/Aspect feature, but do include several features 
appropriate for nouns such as Case, Number, and Gender. Similarly, a Case 
feature should not be associated with the descendants of a Verb node. While a well- 
designed feature-hierarchy insures that the annotator does not choose features and 
values that are inappropriate for the category of the word or fragment, it is still up 
to the annotator to choose the correct analysis for the fragment to be annotated. 


The feature hierarchy is represented in what might be called, for lack of a better 
name, an OR-XOR tree, to distinguish between combinable and mutually exclusive 
features. An initial graphical interface for building the tree is shown in Figure 3. 
Each node of the tree represents a feature name or a feature value. The tree 
contains three types of nodes, XOR, OR and mandatory, though their difference is 
not displayed visually in the current interface. 


The Part-of-speech node, representing the name of a feature, is itself an OR 
(combinable) node and has as its children a collection of XOR nodes that provide 
different mutually exclusive options for the value of this feature {Adjective, 
Adjective-Comparative, Adjective-Numeral, etc.). The associated tags shown after 
the semicolon (e.g., ADJ COMP) are the internal tags used for the different values 
and are currently displayed for debugging ease. 

Under the Adjective-Comparative node, there are two types of nodes. The Gender 
feature node is an OR node: it can be combined with other OR features (for 
example, with Case). The two children of Gender are XOR nodes, since a noun 
cannot be masculine and feminine at the same time. 2 Making the values of features 
into mutually exclusive siblings (XOR nodes) precludes selecting combinations of 


2 In a few cases it may be desirable to label something as having multiple values of the 
same feature. For example, some nouns can be considered as either masculine or fe mini ne. 
In this case a special feature value is used that includes both masc ulin e and feminine and is 
mutually exclusive with just masculine and just feminine. 
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features that are inconsistent (for example, choosing the part of speech for a word 
to be both a Noun and a Verb, or attributing to a Noun both a singular and a dual 
value for the Number feature). In contrast, any n umb er of cambinable sibling 
nodes can be selected. When adding annotations, selecting an XOR node deselects 
any other XOR node that is its sibling, whereas multiple sibling OR nodes can be 
selected at the same time. 

A third type of node present in Figure 3 is the mandatory node, of which the 
Elative node is an example. It is used for a feature value (<e) that is always 
associated with elative (comparative or superlative) forms of adjectives and must 
be present if its parent is added as an annotation. 



Fipure Initial verstinn nf interface farhuildinp the feature hierarchy 

Some of the nodes in the OR-XOR tree (e.g., the Adjective-Comparative, Elative, 
Masculine, and Feminine nodes), including all leaf nodes, have an associated value 
that are added as annotations to die text fragment. Those that do not have values 
are used to group the nodes below them. The different types of nodes have a 
different behavior when used in adding annotations. Selecting a node that has an 
associated feature value sets it up for having that value added as an annotation to a 
text fragment when the annotation is applied, whereas selecting a node that has no 
feature value associated with it merely expands the node to give access to its 
children. 
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The feature hierarchy is one of the ways in which the AT helps speed up annotating 
a text. Selecting a node in the tree and adding it as an annotation automatically 
adds all the feature values associated with nodes between it and the root. Feature 
values associated with mandatory nodes are also added if their parent is. Since 
combinable nodes will have feature values in co mmo n because of common 
ancestry, the process of adding annotations checks for duplicate feature values and 
discards them. 

The Annotation Tool speeds up the annotation process in other ways. On the one 
han d, the AT does not force the annotator to annotate every word or phrase in a 
text, nor does it require that fragments that are annotated be annotated with all the 
relevant features. Using the feature hierarchy the annotator can choose features that 
are as deep as the leaves or that partway down the hierarchy. In both cases all 
feature values between the selected node and the root will be added, together with 
feature values associated with any mandatory node. For example, in Figure 2 the 
annotator selects and adds the Elative feature, which automatically adds its parent, 
Adjective-Comparative. Selecting Adjective-Comparative would have had the same 
effect, since Elative is a mandatory feature. The annotator is not forced to select 
and add a Gender feature value, Masculine or Feminine; however, should she 
choose to do so, the selected Gender value, as well as Elative and Adjective- 
Comparative would be added too. Similarly, the annotator may choose to add 
Gender annotations but not add Case annotations. This flexibility is important in 
our application, since the purpose of annotation is to attach to texts information that 
can be used to retrieve passages using criteria that are appropriate at specific points 
in the curriculum. Texts can be annotated to contain just those features that are of 
interest at the time; other features can be added at a later time if it becomes 
desirable to do so for the purpose of making the texts usable at different points in 
the curriculum. 

Finally, the manu al annotation functionality, while provided for all fragments, is 
actually most useful as a way of adding syntactic annotations to multi-word 
fragments of the text or partial morphological annotations to specific words in the 
text. It is assumed that, for complete word-specific morphological annotations, 
rather than individually selecting annotations for each word, the annotator will be 
selecting from annotations suggested by an external morphological analyzer (in our 
case the SAMA analyzer, a descendant of the Buckwalter morphological analyzer). 
To allow the annotations to be selected among proposed ones, the AT reads in a 
file of possible analyses for each word in the text, if necessary performs a 
translation between the annotations suggested by the external program and those 
used by the AT using a predefined mapping, and presents to the annotator all the 
suggested analyses for each word at a time. The annotator’s choice is then stored 
along with annotations added manually to other parts of the text. 
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5. Tool History, Current State and Future Work 

The Annotation Tool described above is currently undergoing its third revision. 
The first version was developed in Java by a student as a capstone project for her 
bachelor’s degree in Computer Science. Her work provided a platform for 
experimenting with our initial ideas for adding both morphological and syntactic 
annotations to potentially long texts. The tool had two distinct annotation ‘modes’ 
that the user could choose between: 1) an annotation-driven mode, in which a 
specific annotation, consisting of a feature or set of features, could be selected and 
applied to all the suitable text word or phrases; and 2) a text-driven mode, in which 
the user would choose the text fragment first and then apply the desired annotation. 
It was also partially integrated with a database storing the text annotations and 
allowed searching for texts in the database that met different criteria in terms of 
vocabulary and morpho-syntactic content. 

The second version of the tool, and the one described in this text, was rewritten in 
C#, in order to have better support for Arabic text operations. It was mostly the 
work of another undergraduate student, Hasnae Rehioui, with a small amount of 
additional work done by Leila Bahri, a Master’s student, to clean up the display of 
individual anno tation features and give a means of including the morphological and 
grammatical feature trees into the AT. It also provided a more sophisticated way of 
displaying and handling of annotations, and integrated the ability to select from 
annotations suggested by an external morphological analyzer. Its use also showed 
that there was no real need for the interface to separate the two annotation modes: 
both fell out quite naturally from the interface depending on what the user chose 
first, the text or the annotation. 

The third revision of the AT, currently underway, aims to retain the above 
functionality while making the interface clearer, less cluttered, and generally more 
usable and powerful. In the first place, since a text may have extensive annotation 
information associated with it, it is crucial that the display of information be 
flexible and as easy to navigate as possible. Several or all of the words and many 
phrasal fragments may have annotations and the annotations can include several 
features. The annotator must have access to the individual features that are part of a 
more complex annotation, as well as see easily which text fragments are annotated 
and how they relate to each other. The Annotation Tree display gives a high-level 
view of how different fragments of the text containing annotations relate to each 
other, but the features display can be long and hard to navigate. 


- 257 - 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


The newest version of the AT will keep displaying the individual features on 
separate lines but use a two-level display. The overview display will include only 
one entry for each annotated fragment, including the same information as before 
(the fragment itself, start, length, and one feature, in order of starting position by 
default. If more features are present, their presence will be signaled by a symbol 
indicating the possibility of expanding to view the full list of features. If a phrase 
and its individual words contain annotations, they will occur in the proximity of 
each other in the display. In the expanded display, all items will be shown with all 
their features. This display will allow reordering the annotations by feature (value) 
and, within the feature group, by other criteria. This expanded display can be used 
to check for consistency of feature attribution across the text and to perform 
additions or deletions of features on entire groups of entries. The interface for 
suggested annotations is also being redesigned to support a similar style of display 
and, generally speaking, to facilitate the interaction between manual annotation and 
selection of suggested annotations. 

Another change that is currently underway is the database back end in which the 
ann otations will eventually be stored. Currently the AT stores annotations in an 
external text file whose contents are to be loaded into an SQL database for use with 
the ARA environment. In the future, it will be possible to both right to a file and to 
insert the annotations directly into the database. So far, we have been working with 
an SQL Server 200S database r unning on a university server. To offer more 
flexibility and independence to developers and users, we have decided to also 
support MySQL and to allow the database to be running on the same machine as 
the annotator in addition to on a remote server. 

Finally, we note that we aim to make the AT usable for annotating text resources in 
other languages and to be able to interface with other systems. The latter is 
facilitated by the use of external annotation text files whose format is not language 
dependent. The AT user interface itself is intended to be h i lingual and could be 
easily extended to be multilingual and/or work with a different language pair. Our 
immediate use of the AT is for annotating MSA texts and therefore, in the near 
future, the AT will ‘speak’ Eng li sh and MSA, easily toggling between the two. 
Considering also that the tool is currently being used by a mixture of English and 
Arabic speakers, but that the ultimate users of the tool may be primarily Arabic 
speakers and may be more comfortable with the terminology traditionally used to 
discuss Arabic grammar rather than English grammatical terminology, the 
annotation tree will include both Engli sh and Arabic labels, permitting the display 
of either or both. The interface for incorporating the morphological and 
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grammatical annotation trees minimally constr ains the form and content of the 
annotations that can be han dled. Therefore we hope, when (re)development is 
completed, to share it with other colleagues who mi ght find such a tool useful for 
their applications and we welcome input from colleagues working on similar tools 
or using similar tools who could have an interest in using die Annotation Tool once 
we are ready to release it. 
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Introduction : Presentation du projet 

Notre projet consiste en la mise en place d’une banque de donnees de corpus oraux, 
num6ris6s, transcrits et annot6s pour la langue amazighe qui soit exploitable k des 
fins scientifiques s’adressant principalement aux enseignants chercheurs linguistes. 
Nous souhaitons recolter un corpus suffisamment large pour qu’il soit representatif 
de la langue, et afin qu’il permette sa sauvegarde sous forme de ressource 
linguistique. Cette recherche fait intervenir deux institutions : le departement de 
langue et culture de Tizi-Ouzou et la section linguistique de la Faculte de lettres de 
P university de Lausanne. Aucun moyen financier spycifique n’accompagne ce 
projet mais ce dernier a yty intygry dans le laboratoire de recherche 
« Amenagement et enseignement de la langue amazighe » agree en 2009. 

Les objectifs : 

Le premier objectif est de mettre k disposition de linguistes une ressource 
linguistique ce qui implique des consyquences sur la maniyre de dyfinir les 
mytadonnyes et les annotations. Cette recherche est aussi une occasion de 
documenter le kabyle parle dans toutes ses varietes, sous toutes ses formes 
geographiques. Son interet reside aussi du fait que cette ressource linguistique sera 
accessible via le web. Ainsi, on peut ajouter que cette banque de carpus n’a pas 
pour objectif le TAL ou le TIC mais un outil aussi complet possible (metadonnees, 
annotations, ytiquetage...) pour des linguistes qui pourraient s’intyresser k un ou 
des yiyment(s) de recherche. 

La creation d*un corpus oral, se fait sur la base l’article de Jacobson (2002), 
chercheur au LAC1TO (Laboratoire de langues et civilisations k tradition orales). 
Nous intygrerons l'ycrit en utilisant la notation usuelle du kabyle. Les corpus 
constitues, nous les ecrivons en notation usuelle et les retranscrivons en 
transcription phonetique (API) (Annexe transcription). Cette operation etant faite, 
nous y ajoutons des metadonnyes qui permettront d'identifier nos donnees et les 
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dEcrire (date, langue etc.). Nous nous basons sur les recommandations d’OLAC 
pour le codage des metadonnees (LACITO, 

http://lacito.vjf.cnrs.fr/arehivage/index.htnri meme si d’autres modeles 
( ALA VAL .httD://www2.unine.ch/dialectologie/page9353.html- CRDO, 

http://crdo.risc.cnrs.fr/exist/crdo/ et http://crdonp-nniv-aix.frA sont aussi 
intEressants. 

La conservation des donnees se fera grace a des copies et a la numerisation 
(transformation en ressource linguistique informatisEe). En effet, comme le 
rappelle Jacobson (2002), le mode de representation digital a l'avantage d'etre 
rEpandu, facile d'emploi et a la capacity de mieux conserver les donnees. Nous 
utiliserons un codage sans compression pour nos donnees audio, ce qui semble plus 
adapte pour l'archivage a long terme. 

Le travail sur le terrain : 

Pour atteindre noire but nous enregistrons des corpus de locuteurs monolingues. 
Ces corpus sont recueillis par nos etudiants de licence de notre departement. Ceci a 
un double objectif: - cibler toutes les regions de la Kabylie grace a eux qui 
proviennent des quatre coins de notre terrain d’enquete. 
- completer la formation de nos Etudiants. Des consignes strictes sont donnees aux 
enqueteurs : Faire transcrire le mEme corpus par deux Etudiants, indEpendamment 
l'un de l'autre. Un membre de l’equipe comparera ensuite ces deux transcriptions 
pour reperer d’eventuelles ecarts recurrents (par exemple variation frequente entre 
[k] et [t], entre occlusive et spirante etc.) qui peuvent etre l'indice de difficultes. 
Controler toutes les transcriptions faites par les etudiants independamment par 
deux 

membres de l'Equipe (avec rEEcoute de l'enregistrement simultanEment) et la faire 
Evaluer grossiErement (par exemple: TrEs bon - Bon - Suffisant - Insuffisant). On 
comparera ensuite les Evaluations donnEes et on rEexaminera les transcriptions 
pour lesquelles les Evaluations different de fa^on importante (de plus d'un degrE). 
On rEe xamin era egalement toutes les transcriptions jugEes insuffrsantes par un 
Evaluateur au moins pour dEcider de celles qui devraient Etre EcartEes comme trop 
fautives et refaites. On identifiera clairement quels Etudiants ont transcrit quels 
corpus, quels membres de l'Equipe l'ont contrdlE et conserver cette information (ce 
seront des mEtadonnEes importantes). II pourrait Etre utile d'avoir des informations 
de type sociolinguistique sur les Etudiants qui transcrivent... 

Nous avons Etabli pour chaque locuteur une fiche de collecte (Annexe 1) ou 
doivent apparaitre les mEtadonnEes prEalablement dEfinies. Pour complEter ces 
donnEes, nous avons Etabli des listes de mots (Annexe 2) en fonction de plusieurs 
parametres dont les differents champs sEmantiques que nous soumettons dans les 
divers points d’enquete. 
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Choix technologiques : 

Nous avons opte pour 1’ adoption de standarts (OLAC ; xml) et des logiciels autant 
que possible gratuits, open-source et multi-plateformes ( W indows-Mac OSX- 
Linux). 

Le traitement et rinformatisation des corpus oraux supposent un certain nombre 
d’outils thdoriques et de techniques qu’on devait maitriser. Le premier point est la 
definition des m6tadonn£es. La question des m£tadonn6es commence k se poser 
s6rieusement lorsque se multiplient les ressources linguistiques informatis£es et 
potentiellement accessibles en ligne. H s'agit de se mettre d'accord sin des 
descripteurs qui permettront ensuite une recherche efficace dans un catalogue qui 
renverra aux ressources elles-memes. 

Dans la constitution d'un systeme de metadonnees pour des donnees - ou 
"ressources" - linguistiques (enregistrements audio ou video, photos, transcriptions, 
annotations), differents niveaux peuvent etre consideres: 

- Description gdnirale de la ressource linguistique (longue, varied, date de 

recueil, genre...) 

- Description des traits specifiques de la ressource linguistique (date, lieu, 

enqueteur, informateur, moyens techniques, fichiers (noms, types, 

localisation...) 

Pour notre projet cel a nous conceme 

1) puisque fun des objectifs, dans l'avenir, est de publier les informations sur les 
ressources construites pour permettre a d'autres chercheurs de savoir qu'elles 
existent et, le cas 6ch6ant, d'y acc6der. (Mais rendre publiques les m£tadonn6es 
n'impliquent pas obligatoirement de rendre l'acc&s k ces donnees dgalement libre) 

2) Comme il est pr£vu un grand nombre de corpus 616mentaires (^enregistrements 
ou sessions...) il faut alors, de toutes faqons, se construire un systeme de 
metadonnees pour retrouver rapidement un sous-ensemble de donnees. Alors autant 
le construire de fa$on a ce qu'il soit compatible avec un systeme standardise. 

Gn relation avec ces structures de m£tadonn6es des logiciels capables de les utiliser 
ont 6t6 d£velopp6s (OLAC, IMDI. . .) 

Pour notre part nous avons choisi d’utiliser OLAC 
(http://linguistlist.org/olac/index.html) 

L'OLAC a 61abor6 son systgme de m£tadonn6es pour la description de ressources 
linguistiques. Il est simple et assez g£n£ral, mais la formalisation d'un m6canisme 
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^extensions permet d'etre plus specifique. 

Pour notre recherche l'examen, mgme rapide, de ces systdmes de m6tadonn6es a eu 
le m6rite de nous permettre de controler que rien d'essentiel n'a 6chapp6 k notre 
projet de "fiche de collecte". On voit ainsi, par exemple, que cette fiche ne permet 
pas de d£crire le genre de donnSes recueillies: soliloque, conversation, rgponses 
orales a des questions, po&nes etc... 

D'autre part les notations de lieux (d'enquete, de naissance etc) devraient etre 
pr6cis6es par une indication longitude/latitude en raison du grand nombre de noms 
de lieux identiques - done ambigus - en Kabylie. 

Actuellement, nous sommes arrives k 700 points d’enquete, et 400 enregistrements 
de 20mn chacim pour la plupart transcrits (Annexe 3 : exemple de corpus). Nous 
avons 6tabli une « carte exemple » d’un certain nombre de points d’enquete 
(Annexe 4). 

Nous avons, pour le moment utilise Google Earth pour la representation spatiale de 
ces points d’enquete ; La definition des coordonn£es de ces points (longitude et 
latitude) n’a pas 6t6 une tache facile. En effet, les toponymes pr6sentent une grande 
variation dans le temps et dans l’espace. H nous arrive de ne pas pouvoir situer 
exact ement un point d’enquete sur la carte parce le nom a change ou a ete 
transforme. En effet, les diverses sources (cartes topographiques, enquetes de 
Basset, documents administratifs foumis par la Wilaya) presentent parfois, des 
variations importantes dans les toponymes et ceci est une difficult^ supplteientaire 
k surmonter quand on passe k une representation cartographique. 

Enrichissement des donn6es : 

La premiere operation indispensable pour passer de corpus oraux au corpus Merits 
est la preparation d’un clavier qui pourrait nous faciliter l’utilisation des caracteres 
specifiques du kabyle. Pour ce faire nous sommes partis des conventions d’ecriture 
de l’INALCO 

('http://www.inalco.fr/crb/pages htmel/ tableau prononciation kab.htmll et 

UNICODE pour elaborer ce clavier. 

Unicode e'est fantastique parce qu’on peut utiliser des dizaines de milliers de 
caracteres dans une seule police... 

Mais Unicode e'est infernal parce qu'on peut realiser la meme lettre de plusieurs 
fa^ons differentes et que ces differences, si elles ne sont pas toujours facilement 
per^ues par l'oeil humain, sont un abime pour un ordinateur. 

Le probleme se pose pour les caracteres complexes (notation des emphatiques par 
exemple) qui peuvent exister comme caracteres uniques en quelque sorte pre- 
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construits et occupant une position dans la grille Unicode ou bien etre produit par 
l'association de deux caracteres: une lettre et un signe diacritique. 

Or les programmes informatiques vont traiter diffSremment ces deux situations. 
Les logiciels permettant d'6tablir des listes de fr6quence ou des concordances 
fonctionnent correctement lorsque les caracteres complexes sont cod6s par des 
caracteres uniques mais ne savent pas traiter le cas oil ils sont formes par 
l'association de deux caracteres. 

La regie £ appliquer est done la suivante: si e'est possible, 6crire un caractere 
complexe en utilisant un caractere unique et non pas en combinant un caractere 
litteral et un caractere diacritique. 

C'est pourtant exactement l'inverse que propose le site edition.berbere... 

(http://edition.berbere.free.fr/tables_saisie_berbere_utf-8_0 1 .html). 

Les propositions qui figurent dans le tableau suivant respectent la regie ci-dessus 

Pour les consonnes labiovelaires (pas reprises ici) il n’y a pas de caracteres uniques 
dans Unicode. La proposition de l’INALCO - postposition de ° - reste done la plus 
simple puisque ° en exposant se trouve directement sur tous les claviers. 



Bloc 

Code 


Bloc 

Code 

a 

Latin de base 

0061 

A 

Latin de base 

0041 

b 

Latin de base 

0062 

B 

Latin de base 

0042 

c 

Latin de base 

0063 

C 

Latin de base 

0043 

C 

Latin etendu-A 

010D 

V 

c 

Latin etendu-A 

010C 

d 

Latin de base 

0064 

D 

Latin de base 

0044 

d 

■ 

Latin etendu 

1E0D 

D 

■ 

Latin etendu 

1E0C 


suppl. 



suppl. 


e 

Latin de base 

0065 

E 

Latin de base 

0045 

f 

Latin de base 

0066 

F 

Latin de base 

0046 

g 

Latin de base 

0067 

G 

Latin de base 

0047 

8 

Latin etendu-B 

01E7 

6 

Latin etendu-B 

01E6 
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(NPC avec get & [diacritique : breve !] de Latin etendu-A 01 IF et 01 IE) 


h 

Latin de base 

0068 

H 

Latin de base 

0048 

h 

■ 

Latin etendu 

1E25 

H 

■ 

Latin etendu 

1E24 


suppl. 



suppl. 


■ 

1 

Latin de base 

0069 

I 

Latin de base 

0049 

■ 

} 

Latin de base 

006A 

J 

Latin de base 

004A 

k 

Latin de base 

006B 

K 

Latin de base 

004B 

1 

Latin de base 

006C 

L 

Latin de base 

004C 

m 

Latin de base 

006D 

M 

Latin de base 

004D 

n 

Latin de base 

006E 

N 

Latin de base 

004 e 

Y 

Extensions IPA 

0263 

Y 

Latin 6tendu-B 

0194 


(Attention ! autre possibiliti : bloc Grec et Copte avec le couple y 03B3 pour la 
minuscule et T 0393 pour la capitate. On pourrait reserver ces caracteres, si 
necessaire, a la notation d’une realisation spirante d’un Igl ) 


q 

Latin de base 

0071 

Q 

Latin de base 

0051 

r 

Latin de base 

0072 

R 

Latin de base 

0052 

r 

■ 

Latin etendu 
suppl. 

1E5B 

R 

■ 

Latin etendu 

suppl. 

1E5A 

s 

Latin de base 

0073 

S 

Latin de base 

0053 

s 

■ 

Latin etendu 
suppl. 

1E63 

s 

■ 

Latin etendu 

suppl. 

1E62 

t 

Latin de base 

0074 

T 

Latin de base 

0054 

t 

■ 

Latin etendu 
suppl. 

1E6D 

T 

■ 

Latin etendu 

suppl. 

1E6C 

% 

Latin 

etendu-A 

0163 

T 

Latin etendu-A 

0162 

u 

Latin de base 

0075 

u 

Latin de base 

0055 
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w 

Latin de base 

0077 

W 

Latin de base 

0057 

X 

Latin de base 

0078 

X 

Latin de base 

0058 

y 

Latin de base 

0079 

Y 

Latin de base 

0059 

z 

Latin de base 

007A 

Z 

Latin de base 

005A 

z 

■ 

Latin etendu 

1E93 

z 

■ 

Latin etendu 

1E92 


suppl. 



suppl. 


z 

Extensions 

IPA 

025B 

8 

Latin etendu-B 

0190 

(Attention ! d* autres possibility 

seraient 

envisageables, p.ex. 

bloc Grec et 


Copte...) 


Generalisation a la notation de la spirantisation. 

Le principe consistant k pr6f6rer systtmatiquement l’utilisation d’un caractdre 
unique sur 1’ association de deux caracteres est egalement preferable pour les autres 
niveaux de transcription. Ainsi, pour la notation des spirantes, dans une 
transcription phonetique large, si l’on decide d’adopter la convention du trait 
souscrit (suscrit sur g ou G) plutot que le recours aux caracteres de l’API, il vaudra 
mieux utiliser les caracteres qui apparaissent dans le bloc Latin etendu 
supplementaire plutot que de combiner un caractere avec le diacritique « trait 
souscrit » (Unicode 0320). 

Pour 6crire le kabyle, en plus des lettres habituelles on a besoin: 

• des lettres: y et £ 

• des lettres diacritges: c et g avec caron (appel6 encore: hacek, chevron, 

antiflexe, accent hirondelle, v suscrit), d, h, r, s, t, z avec point souscrit, t 
c6dille. 

Tous ces caracteres doivent etre disponibles en lettres minuscules et en lettres 
capitales (majuscules). 

Toutes ces lettres sont pr6vues, pr6compos6es, dans divers blocs Unicode. Les 
codes correspondants sont indiques ci-dessus. 

Pour permettre la saisie de ces lettres sans exiger de trop gros efforts de 
memorisation et eviter des conflits avec des combinaisons de touches predefinies 
par le syst&me ou par d’autres programmes (Word par exemple), la solution 
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generate retenue consiste a definir une "touche morte", au fonctionnement analogue 
a la touche de l'accent circonflexe ou du trema. On presse la touche morte puis la 
touche correspondent portant un caractere simple (dit "de base") et on obtient le 
caractere special voulu. 

La touche retenue comme touche morte est celle qui, sur le clavier suisse romand, 
porte les signes < et >. 

Le y et le E s'obtiennent avec la touche morte suivie des touches y et e (les 
caracteres de base les plus proches par leur forme). 

Les d , h , r . s , t et z avec la touche morte suivie des caracteres de base 

u*u r u*u m u • 

correspondants d, h, r, s, t et z. 

Pour f la touche morte est suivie de la touche x ("ifcs"). 

Les lettres capitales s'obtiennent normalement en combinant la touche morte avec 
la touche shift (majuscule). 

Les caracteres < et > restent disponibles: il suffit de les taper apres la touche morte: 
deux pressions successives sur la touche < donne < ou > si la touche shift est 
pressee. 

Concretement, et suivant Sur Macintosh (avec clavier Frangais-Suisse), ou sur PC, 
il faut suivre les operations suivantes : 

Sur Macintosh (avec clavier Framjais-Suisse) 

- installer le fichier +kabyle.keylayout (crgg avec le logiciel gratuit Ukelele cf. 
scripts.sil.org/ukelele) dans le dossier Keyboard Layouts qui se trouve dans le 
dossier Biblioth&que (ou: Library) de Futilisateur (ou de l'ordinateur iMac). (Si le 
dossier Keyboard Layouts n'existe pas il faut le creer dans le dossier bibliotheque, 
en lui donnant exactement ce nom); 

- redemarrer l'ordinateur; 

- ouvrir les Preferences Systeme... (menu Pomme) et ensuite International; cliquer 
sur l'onglet Menu Saisie, rechercher le clavier +kabyle et cocher la case a gauche 
(Active); 

- dans la barre en haut de la fengtre, £ droite, cliquer sur le drapeau qui symbolise 
le clavier (combinaison des drapeaux suisse et fran^ais) et sglectionner le clavier 
+kabyle qui doit se trouver en dessous. 

Le clavier +kabyle est desormais accessible et toute application utilisant une police 
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Unicode assez complete (comme Doulos SIL) permettra d'obtenir les caracteres 
specifiques necessaires avec la touche morte. 

Mais il y a im logiciel gratuit, Microsoft Keboard Layout Creator, accessible ici: 

http://www.microsoft.com/globaldev/tools/msHc.mspx. qui permet de reconfigurer 
un clavier et, notamment, de crder une touche morte. 

Toutefois l’utilisation de ce programme exige l'installation prealable de 
l'environnement de programmation .NET (.NET Framework) a telecharger ici : 

http://www.microsoft.com/net/Download.aspx 

Un mode d'emploi en frangais ci-joint (MKLC_fr.pdf; extrait de 
http://llacan.yjf.cnrs.ft/fichiers/manuels/Intemet/SaisieClavier.pdf) permet de se 
debrouiller assez facilement. II faut simplement corriger ce qui est dit sur 
l'installation du clavier dans Windows: 

- le fichier .msi est le fichier compost du nom du clavier et de l'abr6viation de la 
famille du processeur (le plus souvent i386). Mais il y a un fichier de Setup qui doit 
se charger d'installer la bonne version. Attendre le message: Installation complete. 
Ce n'est pas immediat. 

- c'est le panneau de configuration Options r6gionales (et non Clavier) qui, sous 
Windows XP en tout cas, permet d'installer et d'activer le nouveau clavier. 

Bien entendu il est possible de choisir n'importe quelle touche comme touche 
morte, pas seulement le <. 

Extension envisageable: 

Si on le souhaite, on peut ajouter d'autres caracteres, comme par exemple le d 
(<+a). La difficulte consiste a attribuer les caracteres supplementaires a une touche 
presentant, si possible, un certain rapport, pour eviter un effort de memoire. Mais 
on pourrait parfaitement, par exemple, definir une autre touche morte pour entrer 
des caracteres de l'alphabet phonetique utilises dans une transcription phonetico- 
phonologique. On pourrait avoir, par exemple, avec $ comme touche morte $+t 
dormant 6, $+d dormant S etc. 

Sites cites: 

- pour telecharger Ukelele, logiciel de configuration du clavier pour Macintosh: 
http://scripts.sil.org/ukelele 

- pour telecharger Microsoft Keboard Layout Creator, logiciel de configuration du 
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clavier pour PC: 

http://www.microsoft.com/globaldev/tools/msklc.mspx 

- pour t616charger l'environnement de programmation .NET pour Windows, s’il 
n'est pas install^: http://www.microsoft.com/net/Download.aspx 

Enrichissement des donnees : 


L'enrichissement des donn6es par un certain nombre de logiciels presuppose la 
mise en place d’un certain nombre de concepts qui pourraient nous aider dans la 
segmentation des corpus en unites (enonces, phrase. . .) et l’etiquetage linguistique 
(morphosyntaxique). L’un des points qui nous interessent est la relation 
phrase/prosodie/segmentation. 

Phihppe Martin (1981, 2002, 2010) definit assez clairement les concepts qui nous 
interessent pour notre problematique. Ainsi, pour lui, le mot prosodique est 1 "unite 
prosodique minima le contenant un seul mot accentue. Cela correspond, 
general ement, au syntagme. Ceci explique la composition du groupe prosodique de 
mots prosodiques. Quant k la phrase prosodique, toujours d’aprds Philippe Martin, 
elle indique la courbe melodique phrastique, dependant de la modalite de la phrase 
(declarative, interrogative etc.). 

Dans cette perspective, la phrase prosodique n’est qu’une suite de mots d61imit6e 
par deux pauses importantes (initiale et finale) et caract6ris6e par une intonation 
qui varie avec le type de phrase (assertive, interrogative, injonctive). 


Pour la definition de la phrase et de l’enonce, le Dictionnaire de la linguistique de 
Georges Mounin (2004 : 262) stipule "Beaucoup d’usages linguistiques tiennent 
enonce et phrase pour des termes synonymes. Mais on a inttret & opposer les 
phrases (unites de langue) aux 6nonc6s (unites ou exemples de parole), l*6nonc£ 
etant ce qui est donn6 dans le mat6riau non analyst". 


Un enonc6 est "tout segment de la chaine parl£e, compris entre deux interruptions 
n6es soit du silence, soit du changement de locuteur, et qui n’a pas encore 6t6 
identify ou analyst en phrases" (G. Mounin, 2004 : 125). 


La phrase est definie par A.Martin (1991 : 131) comme une sequence «dont tous 
les iliments se rattachent d un pridicat unique ou d plusieurs pridicats 
coordonnis ». Pour la syntaxe, il declare (1985 :13) «S’il est un point sur lequel 
peuvent tomber d’accord les linguistes contemporains, it quelque 6cole qu’ils se 
rattachent, c’est qu’appartient k la syntaxe l’examen de la fa?on dont les unites 
linguistiques douees de sens se combinent, dans la chaine parlee, pour former des 
enonces (...) c’est-a-dire la fa?on d’ordonner des mots pour former des phrases». 
Et l’objet de la syntaxe est «d’exprimer par quels moyens les rapports qui existent 
entre les elements d’une experience(...) peuvent etre marques dans une succession 
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d’unit6s linguistiques de manidre que le r6cepteur du message puisse reconstruire 
cette experience)) (Ibid., 2-8, p. 16) 

Toujours pour notre etiquetage linguistique, nous avons un element aussi important 
que la phrase et l’6nonc6, k savoir le syntagme pour qui la definition de A.Martinet 
est tout k fait indiqu£e puisqu’il le definit (Martinet, 1980, 4-13, p.112) comme 
« toute combinaison de mondmes dont les rapports mutuels sont plus etroits que 
ceux qu’ils entretiennent avec les autres elements de l’6nonc6, plus, 
eventuellement, le moneme fonctionnel qui rattache cette combinaison au reste de 
renonce» 

Dans un 6nonc6 complexe, on trouve done un 6nonc6 minimum qui se compose 
g6n6ralement d’un predicat et d’un sujet (expansion obligatoire) et les expansions. 
Le predicat est l’element irreductible de l’enonce. 

Done, une phrase est un enonce dont tous les elements se rattachent a un predicat 
unique ou a plusieurs predicats coordonnes en tenant compte des pauses 
importantes (initiale et finale) de l’intonation qui varie avec le type de phrase 
(assertive, interrogative, injonctive). 

Deux logiciels gratuits et fibres d’accds sont utilises : 
PRAAT (http ://www. fon.hum.uva.nl/praat/download_win.html) 

et JAXE (http://sourceforge.net/projects/jaxe/) 

JAXE : 

Un langage XML est defini de fa$on formelle, de maniere a permettre la 
verification automatique de la syntaxe. Cette description formelle comprend les 
noms des elements du langage, les imbrications possibles entre les elements, l'ordre 
autoris6 des elements, et leurs attributs (les attributs etant optionnels ou 
obligatoires). 

Jaxe facilite la creation des documents XML en utifisant les regies du langage pour 
proposer des elements k ins6rer 1£ ou e'est possible. Cela permet de creer des 
documents valides (e'est i dire se conformant aux regies du langage) beaucoup plus 
facilement qu'avec un simple 6diteur de texte. 

En plus des fichiers d6crivant les langages XML (les schemas), Jaxe utilise des 
fichiers de configuration qui definissent la barre de menus et la fagon d'afficher les 
elements du langage. Ces fichiers se trouvent dans le repertoire con fig, et leur 
nom se termine en _conf ig . xml. 

La composante « Metadonnees » 

Chaque enregistrement est accompagne d’une « fiche de collecte » qui le decrit. 
Cette fiche de collecte : 


- 271 - 



LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Sera integralement transcrite sous la forme d’un fichier xml (elements : Divers, 
Enquete, Collecteur, Debriefing, Autres infos ; sous-elements : les differentes 
lignes de la fiche), auquel il sera reference dans le document elementaire ; 

Constituera la source des mdtadonndes incluses dans le document 616mentaire. 

Le choix des m£tadonn6es retenues pour accompagner directement chaque 
document elementaire se fonde sur les standarts requs (Dublin Core (DC) et 
OpenLangage Archives Community (OLAC) et suit d’assez pres les 
recommandations du Centre de Ressources pour la Description de l’Qral 
(CRDO, CNRS). On renonce cependant k noter les caract6ristiques constantes 
de nos documents : la langue 6tudi6e (le kabyle) et la langue d’dtude (le 
franqais) 

On donne, sous-l’element Metadonnees, la liste des sous-elements (= 
representation de la structure hi6rarchique) 

On defmit ensuite, comme des elements distincts, en dehors de la specification 
de l’element Metadonnees, chacun de ces sous-elements (= representation des 
composantes de la structure). Ces sous-elements de l’element Metadonnees 
sont done des 616ments et peuvent k leur tour se composer de sous-616ments. 

Cette representation est donnee en Annexe 5 

La composante de Viliment Donnies 

La premiere composante est la Phrase qui va etre analysSe en une succession de 
parties du discours et qui peut-etre glos6e (traduction juxtallindaire), transcrite, en 
phon6tique ou en phonologie, traduite. Elle est 6galement li6e & un 616ment sonore. 
Les elements de glose, de transcriptions, de traduction et de lien avec le si gnal 
audio caracterisent egalement les differentes parties du discours. C’est pourquoi on 
les r6unit en un « ensemble » (nommd, dans cet exemple, « formes »). 

Les parties du discours, ainsi que les attributs qui les caracterisent, sont 
d6termin6es par les linguistes berb&risants du groupe de recherche. 

Pour que le fichier de description de la structure soit accept^ par Jaxe, il faut encore 
indiquer un element racine de l’arborescence hierarchique. Dans notre exemple ce 
sera l'element Document_kabyle. 

L’illustration est en Annexe 6, 7, 8, 9. 

Application avec PRAAT : 

PRAAT () est exploite en analyse acoustique. En creant de nombreuses tires, on 
arrive aligner le signal temporel, le sonagramme, la notation usuelle, le decoupage 
en unites prealablement definies ou etiquetage linguistique (racines, schemes, 
syntagmes. . .) (Annexe 10). Des scripts sont Egalement utilis6s k des fins de 
segmentation en 6nonc6s par exemple. Evidemment toute la probldmatique de la 
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ddfinition de l’dnoncd en ce qui conceme l’oral est difficilement maltrisable. Pour 
notre part, les pauses sont prises comme indicateur de separations d’enonces 
(Annexe 11, 12). Evidemment PRAAT a aussi la quality d’aligner 

son/transcription. 
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Annexe 1 : 


Fiche de collecte 


1. divers 


date de collecte : 




Tigzdrt (Tasalast et Tamda 
Oueuemoune 


support de renregistrement 


duree de l’enregistrement : 


lieu de l’enregistrement : 


sujet de l’enregistrement : 


Y avait-il un public ? 


Reference 



Environ 45 minutes 


Au bord de la mer 


Poissons, animaux de la mer, 




Date de naissance : 


Sexe : 


Village d’origine : 


Tribu: 


Domicile actuel (village, 
region): 


Dialecte parle, (nom donne par Kabyle 
le locuteur a son parler) 


Autre fsl langue f s') parlee (s 


L’un est ne en 1934 / 1’ autre est ne en 1977 


Hommes 


Au travail : 
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(A la maison : ) Kabyle 

Sdjour (s) A P Stranger Non 

Dur6e du/des s6jour(s) ? 


Scolaritd et formation Niveau CEM celui qui est n6 en 1977 



Langue(s) de l’enseignement 

re$u : 

Profession : Chasseurs marins 

Personne(s) ayant joud un rdle dans l’apprentissage linguistique (par exemple son 
p6re, sa mdre, personne avec qui le locuteur a pass6 son enfance) 

- lien de parente, relation avec Non 

la personne : 

- lieu d’origjne : 

- scolarite (et langues 

d’enseignement) : 

situation familiale (mariage(s), Mari6 (celui qui est n6 en 
enfants) : 1934), c61ibataire (celui qui 

est ne en 1977) 


langue (s) parl6e (s) par le Kabyle 

conjoint : 



attitude du locuteur par rapport Fiere vis-a-vis du kabyle, leur parler different au 
a sa langue et a sa fa^on de reste de la Kabylie ; 
narler : 
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langue (s) parl6e (s) : 

Kabyle, arabe, fran^ais 


origine : 

Tigzirt 

relation enqueteur-enquete : 

? 

• 




4. Debriefing 



conscience du micro : 


attitude du locuteur par rapport 
a Penregistrement : 


attitude du locuteur par rapport 
a l’entretien, aux questions 
posees. . . 





5. Autres infos 




- 276 - 












LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Annexe 2 : 


mot 

Parler 01 : 

Parler 02 : 

(en fran(ais) 

Aglala / Beni Zmenzer 

Isseradj^ne / Boudjima 


*Tireylin 

*Tireyla 

Champignon 

Racine : Rr L 

Racine : Rr L 


Scheme: ticiec 2 c 3 ic 4 

Scheme : ticiec 2 c 3 a 


*Tajijbant 

*Tajilbant 

Petits pois 

R : JBN 

R : JLBN 


S : taciic2C 3 ac 4 t 

S : taciic 2 c 3 ac 4 t 


*Tazumbit 

♦Tazumbilt 

Pin Silvestre 

R : ZMB 

R : ZMBL 


S : taciuc 2 c 3 it 

S : taciuc 2 c 3 ic 4 t 


*Tilimet 

*Talimet 

Citronnier 

R : LM 

R : LM 


S : tic]ic 2 et 

S : taciic 2 et 


*Imidek 

*Tidekt 

Lentisque 

R : (m) DK 

R : DK 


S : iciic 2 ec 3 

S : ti ciec2t 

Lentilles 

*Lac des 

*Lc ed s 
■ 


R: DDS 

R:DDS 

■ 


S : ciac 2 c 3 ec 4 

S : CiC2ec 3 c 4 


*Karitus 

*Akalatus 

Eucalyptus 

R : KRTS 

R : KLTS 


S : ciac 2 ic 3 uc 4 

S : aciac2ac 3 uc 4 


*Akemic 

♦Domic 

Chene liege 

R : KRC 

R : KRC 


S :a CieC 2 uc 3 

S : iciiC 2 uc 3 

Gland 

*Ah ellud 
■ ■ 

*AbeUud 

■ 


Jt : H LD 

m ■ 

R : BID 
■ 


S : acjeC&C3 

S : acieC 2 uc 3 

Rue 

*Awermi 

*Lfengla 


R : WRM 

R : LFGL 


S : aciec 2 c 3 i 

S : cic 2 ec 3 c 4 c 5 a 
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Rosier 

*Tic fart : 

R: T FR 
S : ticiC2ac3t 

*Ta£ fart 

R: T FR 
S : tac^acat 

Palmier 

♦Tazdayt 

*Tazanet 


R : ZDY 

R : ZN 


S : tacic 2 ac 3 t 

S : taciac 2 et 

Citrouille 

*Taxsayt 

Taxsakt 


R : XSY 

R : XSK 


S : tacic 2 ac 3 t 

S : taciC2ac 3 t 

Luzerne 

*Ikeffis 

*Ikeffil 


R : KFS 

R : KFL 


S : icieC 2 ic 3 

S : icieC 2 ic3 

Figuier de barbarie 

*Lkermus 

♦Lkermus 


R :(L) KRMS 

R: (L) KRMS 


S :cic 2 e C3C4UC5 

S :cic 2 ec 3 c 4 uc 5 

Mures sauvages 

* Timjwal 

*Tizwal 


R : NJWL 

R: ZWL 


S : ticiic 2 c 3 ac 4 

S : ticiC2ac 3 


* Timendekrar 

*Tiferkekkay 


R : MNDKR 

R : FRKY 


S : ticiec 2 c 3 ec4c 5 ac6 

S : ticiec 2 c 3 eC 4 ac 5 


♦Timeccucin 

♦Aeersiwen 


R : MC 

R : T RS W 


S :ticieC 2 uc 3 ic 4 

■ 

S : aciec2c 3 ic 4 ec 5 

Lait 

*Ayefki 

*Ifki 


R : YFK 

R:FK 


S : aciec 2 c 3 i 

S : i c^i 

Frdre 

*Xuya 

*Ugma 


R : XY 

R : GM 


S : C]UC 2 a 

S : ucic 2 a 

L’ argent dorrne pour 

*Tizri 

♦Tizri 

la fiancee 

ft 

* 

R: ZR 

ft 

R : ZR 

ft 


S : ti CiC 2 i 

S : tic^i 

Filles 

*Tullas 
R : LS 

*Tihdayin 


S : tuQac 2 

R :HDY 

• 

S :ticic 2 ac 3 ic 4 

Amas de bois qui sert 

*Uyud 

*Uyud 

a cuire la poterie 

R:ID 

R: TD 
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S : u C]UC 2 

S : uciuc 2 

Cruche 

*Acmux 
R : CMX 
S : acic 2 uc 3 

*Asagem 

R:GM 

S : aciaojecs 

Chapelet de morceau 
de viande 

*Iceddiwen 
R: CDW 
S : i CiC 2 ic 3 ec4 

*lmeck 
R : (L) MCK 
S - c i c 2 ec 3 c 4 

Un specialists pour 
circoncire les gar^ons 

*aheggai» 

■ 

S : acieCjuc3 

*lem£ellem 
R : (L) £LM 
S : Ciec 2 c 3 eC4ec 3 

Les ceufs a la semoule 

*Timcewwect 
R : MCW 
S : ticiC 2 eC 3 ec4t 

*Tabeyrirt 
R : HTR 
S : taciec 2 c 3 ic 4 t 

B6b6 

*Llufan 
R : LFN 
S : Ciuc 2 ac 3 

*Agrud 
R : GRD 
S : aC]C 2 uc 3 

Crepes 

•Lemsemmen 
R : (L) MSMS 
S :ciec 2 c 3 eC4ecs 

*Aheddur 

m 

Jt.HDR 

m 

S : a CieC 2 uc 3 

Petite fille 

Taqcict 
R : QC 
S :tacic 2 ic 3 t 

*Tagrudt 
R : GRD 

m 

S : taCjCjUCj 

Faire purifier, 

circoncire clarifier 

*Sdehren 

■ 

R :DHR 

m 

S :c 1 c 2 ec 3 c 4 ec 5 

*Zeyynen 
R : ZYN 
S :cieC 2 c 3 ec4 

Faire manger 

•Aceafii 
R : C 
S : acieC 2 i 

*AseCCi 
R : C 
S : acieC 2 i 

Enfant 

♦Aqcic 
R : QC 
S : acic 2 i c 3 

*Aqcic 
R : QC 
S : aC]C 2 ic 3 

A ce moment la 

*Tmir-n 

R : MR 
S : iciic 2 c 3 

*Tmir 
R : MR 

S : iciicj 

Souhait 

•Saed 
R: S£d 

♦Henni 

R:HN 


279 











































LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 



S : ciac 2 c 3 

S : CieC 2 i 

Je lui dois, elle leur 
doit 

♦Tettalas 
R : LS 

S : teCiac 2 ac 3 

♦Tettaras 
R : RS 

S : teCiac 2 ac 3 

Peuvent 

*Zemren 

RZMR 

S ■ ciec 2 c 3 ec 4 

*Waean 

R:W£ 

S : c ( ac 2 ac 3 

Haut de robe qui 
bouffe en poche au 
dessus de la ceinture 

♦Icimmi 
R: CM 
S : icii C 2 i 

*Iciwi 
R : CW 
S : iciicii 

La cuise 

*Tayma 
R:IM 
S : taC]C 2 a 

*Taqesbudt 

R: QSBD 
S : taciec2C3UC 4 

Celles qui roule la 
semoule avec les 
mains dans un grand 
plat pour la 

preparation du 

couscous 

*Tifettalin 
R : FTL 
S : ticieC 2 a c 3 ic 4 

*Tineffalin 
R : NFL 
S : ticieC2ac 3 ic 4 

Etre d’accord 

*Mseqbalen 
R :(MS) QBL 

S : cic^sc^secfi 

*mrudan 

■ 

R: (M)RD 
S :cic 2 uc 3 ac 4 

Marie 

♦Isli 
R: SL 
S : icic 2 i 

*Isli 
R : SL 
S : icic 2 i 

Ce qu’il faut 

*Ilaqen 
R: LQ 
S : iciac 2 ec 3 

♦Ilezmen 
R : LZM 
S : iciec 2 c 3 ec 4 

Faire les youyous 

♦Siyret 
R: 1RT 
S : cjic 2 c 3 ec 4 

*Seyret 
R : fRT 
S : Ciec 2 c 3 ec 4 

Beignets 

*Lesfeng 

R : (L) SFNG 
S : ciec 2 c 3 ec 4 cs 

*Lexfaf 
R(L)XF 
S : ciec 2 c 3 ac 4 

Insectes 

’•‘IbaEEac 
R:B£C 
S : iciaC 2 ac 3 

*Ibeleac 
R : BL£ 

S : iciec 2 c 3 ac 4 


♦Aqrur 

*Agrud 
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Enfant 

R: QR 
S :acic 2 uc 3 

R : GRD 
S : ac]C 2 uc 3 


*Arrac 

♦Igerdan 

Les enfants 

R : RC 

R : GRD 


S : aCiac 2 

S : iciec2c 3 ac 4 


*Hkelli 

*Urkelli 

Ensemble 

R : LKL 

R : RKL 


S : ici^eQi 

S :uC]C 2 eC 3 i 


♦lEerrasen 

*Iqeffafen 

Faire partie du cortege 

R :ERS 

R:QF 

qui chercher la marie 

S : icieC 2 ac 3 ec 4 

S : icieC 2 ac 3 ec 4 


*Tatutaht 

*Tamectuht 

Toute petite 

R :TH 

• * 

R :MCTH 

* ♦ 


S : taciuc 2 ac 3 t 

S : tac 1 ec2c 3 uc 4 t 

Bdb6 

*Ssebyan 

*Agrud 

R :SBY 

R : GRD 


m 

S : Ciec 2 c 3 ac 4 

S - aciC2UC3 


*Aeejmi 

*Agenduz 

Veau 

R: £JM 

R : GNDZ 


S : aciec 2 c 3 i 

S : aciec2c 3 uc 4 


♦riilu 

*Qlilu 

Achille gold 

R :FL 

R:QL 


S :cic 2 ic 3 u 

S : C1C2IC3U 


Cigale 

*Zdeg 
R : ZDG 

m 

S :cic 2 ec 3 

♦TejdeC 
R : JDC 

m 

S : tecic 2 ec 3 

Chouette 

*Timieruft 
R : M£RF 
S : ticii c 2 c 3 uc 4 t 

♦Imieruf 
R : MFRF 
S : ic t i C2C 3 uc 4 

Hirondelle 

*Tifilellest 
R : FLS 

S : ticiic 2 eC 3 ec 4 t 

*Tifirellest 
R : FRLS 
S : ticiic 2 eC 3 ec 4 t 

Papillon du jour 

*Timecriwect 
R : MCRWC 
S : ticiec 2 c 3 ic 4 ec 5 t 

♦Afertitu 

m * 

R : FRT 

m 

S : aciec 2 c 3 ic 4 u 
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Papillon de nuit 

*Afertetu 

* « 

R : FRT 

* 

S : aciec2C3ec 4 u 

*Afertitu 

• V 

R : FRT 

• 

S : aciec2C3ic 4 u 

Singe 

*Iddew 
R : DW 
S : iCiec 2 

*Ibekki 
R : BK 
S : icieCy 

Chauve-souris 

•Tirellil 

* 

R : TRL 
■ 

S : CiiC2eC 3 ic 4 

*Itirelli 
R : TRL 
S : ic,ic 2 eC 3 i 

Scorpion 

*Tiyirdemt 
R: [RDM 
S : ticiic2c 3 ec 4 t 

*Tawejjidt 

R : WJD 
• 

S : tacjeCjics 

Tordeuse 

*Aburebbu 
R : RB 
S :abuciC2U 

*burebbu 
R :RB 
S :buciC2U 



Faucon 


Bon plat 


Jeune pousse 


Rcnard 



*Taggent 
R: GN 

*Aggen 
R : GN 

S : taCiec 2 t 

S : aCiec2 

*Afalku 

*Lbaz 

R : FLK 

R : LBZ 

S : aciac 2 c 3 u 

S : CiC2ac 3 

*Tahluqt 

R : HLQ 
S : tacic 2 uc 3 t 

♦Tarzeft 
R : RZF 
S : taciC2ec 3 t 

*Issegmi 
R : SGM 
S : iCiec 2 c 3 i 

*Agudem 

R : GDM 

* 

S : aciuc 2 ec 3 

*Izirdi 

*Akeab 

R : ZRD 

R : K£B 

S : iciic 2 c 3 i 

S : ac,c 2 ac 3 

*Tafiinast 

*Tuwmat 

R : FNS 

R:WM 

S : taciuc 2 ac 3 t 

S : tuCjC 2 at 

*Taselluft 

*Taselluft 
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Puce 

R : SLF 
S : tacieC2UC 3 t 

R: SLF 
S : tacieC 2 uc 3 t 

Chevale 

*Aeewdiw 
R:£WDW 
S : aciec2C 3 ic4 

♦Atidiw 
R : £DW 
S : ac]ic2ic 3 

Massette (Roseau) 

*Agellu 
R: GL 

S : acieCjU 

♦Tabuda 
R:BD 
S : tac 3 uc 2 a 

Figuier 

Tameyrust 
R : MTRS 
S : taciec 2 c3uc 4 t 

*Tanqult 

R:NQL 

S : taciC2UC 3 t 

Coquelicot 

*Tacihbudt 
» * 

R : CHBD 

* 4 

S : taciic2c 3 uc4 

*Wahrir 

■ 

R : WHR 

4 

S :ciac 2 c 3 ic 4 

Plante dont les fruits 
collent a tous ce qu’elles 
touchent 

*Timentedt 
« » 

R : MNTD 
» » 

S : ticiec 2 c 3 ec 4 

*Ihinted 

ft ft 

R : HNTD 

• ft ft 

S : iciic2c 3 ec4 

Vari6t6 de la figue 

Tajengalt 
R : JNGL 
S : taciec 2 c 3 ac 4 t 

*Tajenjirt 
R ; JNJR 
S : taciec 2 c 3 ic 4 t 

Lavigne 

*Ajgagal 
R : JGL 
S : ac 3 c 2 ac 3 ac 4 

*Tajnant 

R:JN 

S : taciC2ac 3 t 

Nigelle 

*Ssanug 
R : SNfi 
S :Ciac 2 uc 3 

*Zraree 
R :ZRD 
S :cic 2 ac 3 ec 4 

Ver 

*Tawekka 
R: WK 
S : tacieQa 

♦TakefiCa 
R:Kfi 
S : tac 3 eC 2 a 

Mouton 

*Axerfi 
R : XRF 
S : aciec 2 c 3 i 

*Ikerri 
R : KR 
S :icieCii 

Escargot 

*Aerus 
R : £RS 

S : aC]C 2 uc 3 

*Aearus 
R : £RS 
S : ac 1 ac 2 uc 3 

Tortu 

*Afekrur 
R : FKR 
S : ac 3 ec 2 c 3 uc 4 

♦Ifekker 
R : FKR 
S :ic 3 e C 2 ec 3 
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Guepe 

*Arez 

* 

R : RZ 
* 

S : ac,ec 2 

*Arz<iz 

• V 

R : RZ 
• 

S : aciCjfiCi 

Chevreau 

*AhuU 

9 

R :HL 

A 

S : acjucj 

*Iyid 
R : fD 

S : iciica 

Variete de figue 

*Abakur 
R : BKR 
S : aciac 2 uc3 

*Abukar 
R : BKR 
S : aC]UC 2 ac3 

Fenouil 

*Lbesbas 
R: (L) BS 

S : CiC2ec 3 c 4 ac5 

*Abesbas 

R:BS 

S : aciec2c 3 ac 4 

Olivier sauvages 

*Aheccad 

9 m 

R :HCD 

• * 

S : acje C^tc } 

*Azebbuj 

R : ZBJ 

» 

S : acjeC 2 uc 3 

Alfa 

*YUafa 

R:HLF 

9 

S : CiCiUCin 

*H lafa 
R:H LF 

9 

S : CjCzacja 
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Annexe 3 : 


Corpus : Sahel / Bouzegu&ie 
(Transcription en jaxe) 


< ?xml version = tT 1 .0” encoding = "ISO-8859- 1 " standalone = "no" ? > 
< CORPUS > 


< CORPUS > < NOTATION USUELLE > : Nekkni zik, ad d-neker deg yid, nsaf n yid ad 
niuh ta ad teyyar i ta, ad d-nagem d talla n wadda mi i d-newwed ad necyel seksu, mi 
nfiik seksu-n , ad n£edi ad nnened leybar mi nfiik leybar-nn ad nCedi ad nerfed 
iqetpren taseb^if; ad nrub Y®r cyeL Nettewqam amanjil Ad nawe4 a yelli year uzemmur, 
ad nawi iqcer n uyrum deg yiciwan n nay; m nettawi ara llEaU-agi i ttawin akka madden 
turn, wellah ar d tidet a yelli. Ad nawi iqceran-nni n uyrum deg yiciwan nntey ad nawe4 
aken nemwellah d tislatm d lxalat, deg mi ara nali yef lgedra alama n fuk-itt-id deg yixef, 
mi am d-nars, aeeqqa, ad awdey ar lgedra ad xezrey tazemurt ma ufly aeeqqa ar teqacuct 
ad qley, ad t-id-yeq4ey, bemlay arrezq a yelli, mad am turn; lgil n turn. Ad d-nars a yelli 
tameddit n wass ad ay-iney lazz ad nettdeqir iqceran-nni n uyrum. “Tecfad yemarm ad tt- 
ig Rebb n rrehma ; Setti-m ad tt-ig Rebbi n lgennet Ula d yemarm tlehqed” Ad netfejegir 
ayrum-nni akka ar sdat ad nluqed, ad nettdegir ayrum-nni ar sdat ma nufa-d afieqqa 
aquran ad t-nsex<Jel s uyrum-nni Ur nesfii regwaz m nesEi, d ayrum-nni kan, ad d-nawe4 
s lfarb d ameqran ad d-naf tabbarbuct am iqeccaden ad tt-nefiS d tazidant, d tuzyint Ad 
nruh ma i yefuk uzemmur-nni d tuga, ma tefiik tuga-nni d nqec n tebh rin, d timegriw % d 
inurrar, d lleelafin nyezgaren. Ssarwaten madden, deg yiwggflben d tayarza, lxalat d 
azemmur; irgazen d tiyarziwin n zik d ifellahen merra, iEeqliyen ad mexartayen tmefima 
akk d yirden jmerra ad mxartay en. Kill lexir yettzad imir, kill lexir yettzid. Turn d nkkez i 
nekkze n leizaq ad imnaE Rebbi braimen;d nkkez, d nkkez i nekkzen larzaq turn. Ur siney 
ara ad hedrey a tifaryi i yCedan fell-aney. Alah, alah nniy-as a sidi Rebbi ur iyelli yittij ar 
d-nfafc, wa ar d-nfak, wa sidi, aRebbi ur iyeli yiflij-inna ar d-nfak timi-mna. Nettferas; ad 


tezred diy a yewqam-iw asm! wtey tagut s adu, yemut urgaz-iw deg xemsa wedal n, d 
amectub; yegay-d rebEa igerdan, tamurt tella nbend-ik a Rebbi n cekr- ikTenza tbarquqet, 
tenza tremant, yenza ifelfel, tenza, deg mi am d-nekker, tamurt n lefni n ddunit newwe4- 
itt Newwed Zubga, at aEbella, newwed a yelli Ifarhimen, newwed kulci s labmnl n 
ukarmus, deg mi am d-nekkar; hur, bur, bur, ass kamel; bur, hur, bur, ass kamel d tildiwi 
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ad d-nawed, nezenz, ad d-ne&Sar l ahmu l-tmi d ker; d lebsel, d lebatata, ad nub neznuzuy s 
yidrimen, tamurt tella a yelli nexdem neiSa nhend-ik a Rebbi n cekr-ik tura wellah a 
Rebbi ar siniy di leemer fey ay ar lexla ar akka id ufly iman-iw ttyimiy Aka deg uxxam. 
Ad nenyec, ad nezdem, ad d-nawi am an di lefhi n ddunit mi ara SaSarent telliwa ar wasif 
ara nruh deg yid, wellah ar daxel n temdiwin id netta&Sar tfbettiyin, nettruhu-d s axxam. I 
iyeCedan ihi n leqwanen zik. A zik tabarbuct ma te£Ci<J-tt aheq Rebbi ar xir n miya u 
miyin d aksum n tura; tabarbuct nztk akka-tt, timyarin ma ulac ; ma tfiik teyenat; tAarfat 
n unebdu ad d-tili Ibecna, ma tefuk lbecnatabarkant ad d-tili temelalt, ad d-yili ubelu^, d 
azidan lqut, kulec d n d awenEan. Tura, timyarin arssant alqec, telmezyin tteddunt 
Earyan a llah ibarek d aya i yellan tura, hata win i yellan. D tidet neznuzuy lleft; 
yettemyay-d lleft, nettawi ttCebga n lleft, imir yelluz lhal, ctaqen medden lqut Ad 
ne&artteebgat n lleft art mura ad ad y-d-flcen abllud; d tifirac n ubelud ad t-id-n^ed s tesirt 
ad d-neggar ayrum; tabarbuct d tazidant, ayrum-is d azidan, tidd ulac tifrect-nni ntteks-d 
azegzaw. Tura, azegzaw tura ma tegre4-t-id d ayrum wellah ma trnena^ ad d-yekes deg 
yimi-k, nettedez amaqcur ad t-negar d ayrum. A Rebbi di tmexluqt-agi tarwa tacjsa, tari<J- 
ay d ieegunen aeei, a yamzuy-im. Ikem kan i umi id-hedrey Aka wanag lami ad d- 
hedray ma ur ssiney lehdur. Aheq Rebbi ma sney a yelli lehdur, haca ayen yelan Aka 
sufela. Tennaras Seediya tarihant -ad tt-idker Rebbi s bdr, tmetut n Lewnis At cilatt- aken 
ara ad d-aw4en-ken tmni-as : « ayu^ilac lwexda fell-i alama walay-ten beran-d i 
yiserxuden nsen sddaw uxxam n Juhra n teezugt ». Di lhara-imi n Juhra n teezugt wina 
ufella, «ayu, a ysetma timaCzuzin, ulac lwexda fell-i ad wayiy bran-d i yisarxuijen nsen 
seddaw uxxam n Juhra n teezugt ». Ad d-awden a yelli, lxallat ad ttgejgijent deg 
yixxamen, ad tent-zuyu ; zuyum-ay amzun d Imal, win we£an kan ad tsefden s tmeghelt, 
win weean ad tsefden s teekazt, ad at-semken s teekazt I yeedan di lgira-rmi i yeedan, i 
yeedan, ad d-nawe4 ayelli taezizt-iw ay-jemeen mna ar tejmaCt, ama ar yiwet n lhara n 
ttdakal mera, nettugad. Irgazen a yelli fuken-ten, fihel ad am-d-iniy, fihel, irgazen fuken. 
Surtu ma ddzn-d a Tefirit, d BuEwen, d At eica. Akken ara ten-walin yergazen tteddun-d 
wid-ak, ttedun-d leeskar-agi, wanag lee Aar n yirumiyen; zik d lmal i ykesen arrebie armi 
d ass mi i 11«i Aka, ixabiten ifuken tafart n yiigazenAh; ayu ass-agi ddan-d aTefrit, d 
Ateica, d Bueewen. I qedren deg yirgazen, i seewjen deg yimegra n yirgazen msakit Aha 
dayen tura si flnfa Ahldi tleqqamt n At aeli iwsawen, ih I a lexwayar n yimir, d tirebae 
mera, d tirebae ; d Arezqi n Welhag, Latamen At mecqant, setti-im ad tdg Rebbi n 
rrehma, jedi-im, axxam ahaxxam n At winaten, ad yig Rebbi 2£an iqaray n sen; uxxam At 
seada, aken kan ticki nettuqrab akka nettuqrab amyar-nney ad t-yig Rebbi n rrehma, akka. 
At seada ttnusun dina yii-d ass ass-agi ad n-nsen At seada deg yiger n tqayed jemae 
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liman ma nekartt ula d n eknni, ad nemger deg yid ayaxir seined lhal, ad netta, ad ruhen At 
sEada-nni ad d-feken yiwet di teslatin nsen ad amuy neldd ney Tasaedit Tamusat, ad nruh 
ad nawi imensi ad nens ai lexla ad nemger, deg yid ad nemgar, deg zal ad nestaefu imir 
arraw-is ! Ah! Tewwi-iyi-d igadanniyen acu ara m-id hedrey yef uraw-iw a yelli, nenuy, 
nenuy tewwi-iyi-ten-d Tillult Ruh tura mayella win ara as-yinin diri-tt assa. Cecrin n 
ssnin-agi ur iyi-iluEa Buxalfa a tarwa n tEebbu^t Haca Ferhat ; sEiy yiwen kan, wamag 
Buxalfa tiwwi-t Tillult Ih! Ay wtey tagut s adu yef uraw-iw yegga- ten-id d 
imectatahmerra, sekrey-ten-id s uyenat; s IbiEw era. Anda im-rmiy akka ww^ey aEi?. 
Wwdey Zubga, wwdey At lEarbi, wwdey taddert u, Ifarhimen, wwdey abrid Gnnaris ; ak, 
ak yelan d tamnrt merra, merra, akka; Ululen menu di lqem abni d lqem. Mhaga, d At 
Eica, Agrsafen, d yiyil n Bukyasa, d Tifiit Umalek, iy merra, merra timura-agi merra 
nenudartent-id s IbiE w era. Zzit ad idu, lwarq ad idu, ib ur nesEi baba-tenay, ur nesEi 
yema-tenay, yema ad tt-yig Rebbi n rrehma tEewen-iddeg uraw-iw. A! ad nekker, nwet 
tagut s wadu, tura i inekr-iyi Buxalfa, a iwwiy n daEwesu. < CORPUS > 
< TRANSCRIPTION PHONETIQUE > : 

[nalnvnizixadi)ebic8agidlDS«i&gi&an(Aeaa&Bvarieaadiiaywemfiie^jigiad3an]idi]e^adlane 
Jiroj sakso rminf oksakso mnian? Ddianonnodfj aavarminfokj aa vamnia? ndianrfediqataiuneasovh 
ieaimrohirarjKojneSswqamamrdljanawodajelllarozfflmhcnunwiiqJarappaifromSagJlwanntair 
nmlMi»rijiiTiij?ajijngifiSwm«iflnmia^^wnn«A»t^ASiijVlliiiniiw ilqfiai^ijy »gii<Tnmbagpwm 
ntiiKiwirafadidrannamwnliAl^glA^Tgjnftftagmnrnngjtafal^iSrgajamanffilrffgldftagffTaftnaraiiti 

arsaTsqqaadawdaKal^edraadxazraBBazsmoremaoSKaTsqqaareqaJ'oJeadqajaKaeidjsqdaBba 

mjaaaiTOzqajafflmfSJameoraaj^ijntoraadnars^anieamsdie^asairinaBjaSaanatedagiriqJ'ar 

annnidp^imrmeJfadjammairmSiyr^iits^hmassteim^yra^ill^snnsdoladjemmainesjsb 

qadOTiaS5faginiimimtmiBlfaiirS««m»mnf«Hft?a<^aBqnr»mBana2S»A>j«waitcrf «mtwiiiiTna sffii^ 

wa?iimas?ftairm mTmnranadna wadgjafiM^ftBrnaq Tariadnafa avvarvrtJ'flaniiqaffadanifis : nrtJfRag 

idantioTj intanobmaj fokoisrSormi^ yamaeafoke(ryanni6ruj3jet3vbirirr®meyTiwin6inora 

rtiiSelafmagazggaransarwaeenmadddndagwad^variSaj aizaijxaj aedazsmmorirgazan^jarzi 

winazi^faTTflbanmflS Biyaqlij gnaftamTa rftajginmiaymflalfqraAjiTanTnaraaftmTBrABj enlfnlijTiij 

^gf/WmitknlijxiijaiSriftftfirafSanlcIraglnftflfagnjfli-HaqftfirBiirghiaiKaraftbaHi-BiyBAifBBiriigyaiSlflii 


3imaarda<n£dEBin]ijimaneSfarasafi^Qr3d&iBajawqamiwasmij9weaireaYoesadbjmnoewarg' 
gaziwijxarnsawaejaeinfiamaftcAja^ajidravMgwaxdaneamoreeellaeamoreee'Iianhandikare 
ppinjdolkesnzaevarqoqeesnzaeeramanq'anzaajfbjafoj emizaftagmaradnskkareamcnestaihin 
ddonienppsdltsnspiwd^vgaaeafsvallaaealfarvinappsdajalliifarhtmannapftedkobjsjalmiqjo 
k«fTnngbagmBrBdnaflfarbniibnrbftraB^flmgjtei^1iiinTifl<tnflii?a<lBiigwinMidnB?|arj g|iTnf» j miift ak 
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arfej svsejfy vaJataanohnaznozo] ^a&rimaneamoreealTaajalllnxaSamnatiJaiihandikafsi^inJak 
rikearaw^lahaafg^imsiiiiKOijaftnEifiirBBBlaxjaaraflmjdofiirimamwtnriniiBa^agwiunaiiia 
namoJ'anszdsmadiuiwiamandllafiiinSSoniemafatf^arsnteliwaarwaiiifaranohdagldwslIahflr 
daxejtern^wimdsD^at^areivatsijiriii&ohodsainamirigSladaiiihislaqwansiizixaizixeavarvoJ 
ama^fi^tfi«ah3q«» fflandrnrni jflwrni-jiiiafty;fiTrrntfiraftavHfvfiJ~anzi yalfCatS fliirigariiYrnaw1a 

JmaeafbkBqaa£exwarfi£biDsvBoi^jUv»X]iamaefi)]d0v]naBavai^inta@liemaldea^]Swv 
aloddazidanijqoekolsXdazidandawsiifaiieoraaimirariiiaiiiantijqsXeijmazjii^isdont^aijanslIa 
hivaraxflaj aigallaneorahaeawiglan 

^69tenazm)ZDj11afej3te3niifaj<fliafeinetsaw@3VgaDBafeimiij3tozlhalfeaqOTma33gn1qoead 

nd^a^svganllsfearemoraadairdafluiiavalcM^fraXovslodi^ldiiszd&seasireadiisgaraKTOirLe 

avarvoj'eteazi6antagroiius8azieipdolaXeifr^{'minte3ks3dazag7«weoniazag7aweoraniae3YT3t 

iHAaim^mwairalTmaam^^^jaV^ftagtfi^i^^^a?jmiaqJnTaAAmY«rftaKTnrria»affliSjflrrnaTj 

ads 



ajassay^jaeanllanfaSifekaTya^i^xireQmatoeiilawDisaeJilateakanaradawodiOTkaneinasajo 
olaflwaxdaiblBalaiDawalaKednvarandij saraodcnnssanso^BawpaSamnsohraT^OYedilhflra 
55ii^ohratSaTOYewuiaofoTaajoQ:jasQenia6ima?zozmolaflwaxdafelEar6wajiyvrandisorxo(fe 
misansoddawwoxxazim^liratf dzoYoadawdanaj dHijdxaj a&a&szg^gi^ntbogSTOiMnonaeoitez 




6tss3m9X9^se^d£waz3eig7ddandilgiTamiigS > dda]iadiiawddaj9lliea?zizeiwaK3am?dnamaflreo 

7anfaVangfiiimna^jmH«fafTift^n9u?OTAaAViJiiiilfl^RiTiAgrnwii^ 




anaafereogargazamhgjo:a5sagi33flndatafriedae9ija6vo9waiiqodr9n8agarga79ms9ew39n8og 

m3graddgargazamnsaxieah5dajaneorasifiDinahSielaqam1nae?jiiwsawdnihal3xwajar9gimirte 

iTaba9mdCTteiraba?9aFa^qipdlba^latani3iiaamdJqansdtemia^Y af ^^i 1 ^^ l9I1 ^3 d< U ma ^ a 

imiaewiiiaedim&iYafs^^aiiiqarajiisdiiwa^amaesd^afiaakaiikaDeiJkmatebqravHSansSbqr 




aj3nd33ma?j imajimaiiatnca Sqj adnakmammYardsgidaj axiraamadajhaj adnata aadrohanassfod 
anriiadaflca iijiwaBAjftaajflAinnsatiaftanarriritiat^inaKft»Ra?Aiftftarnfi<ia?airnn'hirna\» HtmaiiRiigia n 
sdijaxjamsmyanlsgidaiismYaTdagzajanasflatfoimirahee^ijidi^adamiijaiiaXoaramdhadraEr 
Kafa^wiwajallksnoKiiancared^ijieanidfiiirolerotLeoramaj aUawarasj inlndirftaaSIataJrinlas 
naj agioij ilo?avox^'fiaaearwate?aboth^afaiWs? isj iwankanwanaYvaxaj faeoj^ieefiToleihaj e 
weatfeayoestadoi^arawivtjad^jiniddintaJta&hmairasakraKrridsojanaagjvlTwajraaiidamani 

B^^d^^pddaKzovg^isdaKaej^arvipad^BBaHSareifatlloiianpadaKEvriSgmflrisxax^ 3 ^ 
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ntemoroemaSamaSaaldbiirojonmoSafiilqaramjama^^ 

voxj agmid^nnodad^Dl^ vi^wojrazieadjadojwarqaaj 

i^ihom^?ivavaeiiaKomds?ijdmaeiidBjdma^YadP^ii£b1lmad?awd^ji6dgaifawiwaad]id 
kamdWdeea^c^swadbeoraijiidk^jivoxajfaaj^aKnda^wdsiu] 

< Metadonnees > 

< T > traditions et «rotiunes</T> 

<L> Village: Sahel/ Commune: Bouzegu&ne / Daira: Bouzegu&ne/ Wilaya: Tizi-ouzou < /L > 
<D>novembre 2007</D> 

< Dial > langue kabyle < /Dial > 

<Tr>I- Notation usuelle, II- Transcription phonfitique < /Tr > 

< Enreg > m£thode semi-directive / cam6scope (audiovisuel) < /Enreg > 

< Loc > Nna ouardia/ sexe : FdminJn/ S§e : 79 ansJ monolingue < /Loc > 

< Enq > Karima HABBI < /Enq > 

<FichVideo href= /> 

<Rem /> 

< /Metadonnees > 

< /CORPUS > 
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Annexe 5 : 

<?xml version="l . 0" encoding="ISO-8859-l"?><JAXECFG> 
<DESCRIPTION>Conf iguration pour corpus de kabyle - 
UMMTO-UNIL</DESCRIPTION> 

<RACINE> 

<BALISE nom=" CORPUS" titre="Reference du corpus" 
type="di vision" > 

<TEXTE/> 

<SOUSBALISE nom="Metadonnees" /> 

<SOUSBALISE nom="Donnees"/> 

</BALISE> 

</RACINE> 

<MENU titre="Metadonnees"> 

<BALISE nom="Metadonnees" titre="Informations sur ce 
corpus" type="division"> 

<TEXTE/> 

<SOUSBALISE nom="T"/> 

<SOUSBALISE nom="L" /> 

<SOUSBALISE nom="D"/> 

<SOUSBALISE nom="Dial"/> 

<SOUSBALISE nom="Tr"/> 

<SOUSBALISE nom="Enreg" /> 

<SOUSBALISE nom="Loc"/> 

<SOUSBALISE nom="Enq"/> 

<SOUSBALISE nom="FichSon"/> 

<SOUSBALISE nom= " Fi chCar t e " / > 

<SOUSBALISE nom="FichPhoto"/> 

<SOUSBALISE nom="FichVideo"/> 

<SOUSBALISE nom="Rem"/> 

</BALISE> 

<BALISE nom="T" titre="Titre" type="string"> 

<TEXTE/> 

</BALISE> 

<BALISE nom="L" titre="Lieu" type="string"> 

<TEXTE/> 

</BALISE> 

<BALISE nom="D" titre="Date" type="string"> 

<TEXTE/> 

</BALISE> 

<BALISE nom="Dial" titre="Dialecte (s) " type="string"> 
<TEXTE/> 

</BALISE> 

<BALISE nom="Tr" titre="TypeTranscription" 
type=" string" > 

<TEXTE/> 

</BALISE> 
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<BALISE nom= ,, Enreg" titre= ,, InfosEnregistrement ,, 
type=" string" > 

<TEXTE/> 

</BALISE> 

<BALISE nom =,, Loc" titre=" Informateur {s) " type =,, zone"> 
<TEXTE/> 

</BALISE> 

<BALISE nom="Enq" titre="Enqutteur" type="string"> 
<TEXTE/> 

</BALISE> 

<BALISE nom="FichSon" titre="Son" type="zone"> 
<ATTRIBUT nom =,, href" presence =,, obligatoire"/> 

<TEXTE/> 

<ATTRIBUT nom="start" presence="optionelle"/> 

<ATTRIBUT nom="stop" presence="optionelle"/> 

</BALISE> 

<BALISE nom =,, FichCarte" titre="Carte" type=" string"> 
<ATTRIBUT nom="href" presence="obligatoire"/> 

<TEXTE/> 

</BALISE> 

<BALISE nom =,, FichPhoto" titre="Photo" type=" string" > 
<ATTRIBUT nom="href" presence="obligatoire"/> 

<TEXTE/> 

</BALISE> 

<BALISE nom="FichVideo" titre="Vid6o" type="string"> 
<ATTRIBUT nom =,, href" presence="obligatoire"/> 

<TEXTE/> 

</BALISE> 

<BALISE nom="Rem" titre="Remarques" type="zone"> 
<TEXTE/> 

</BALISE> 

</MENU> 

<MENU titre="Donnees"> 

<BALISE nom=" Donnies" titre="Texte transcrit" 
t ype= " di vi s i on " > 

<TEXTE/> 

<SOUSBALISE nom= " Enonce " / > 

<SOUSBALISE nom= " Phras e " / > 

<SOUSBALISE nom="Mot"/> 

<SOUSBALISE nom="Moneme " /> 

<SOUSBALISE nom="Trad"/> 

<SOUSBALISE nom=" Phono" /> 

<SOUSBALISE nom="Phonet"/> 

<SOUSBALISE nom="Graf "/> 

<SOUSBALISE nom="ChLg"/> 

</BALISE> 

<BALISE nom="ChLg" titre="Autre langue" type="string"> 
<ATTRIBUT nom="code langue" presence="obligatoire"/> 
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<TEXTE/> 

</BALISE> 

<BALISE nom="Enonce" titre="Enonce" type="string"> 
<ATTRIBUT nom= ,, id" presence="obligatoire"/> 
<SOUSBALISE nom=" Phrase" /> 

<SOUSBALISE nom="Mot"/> 

<SOUSBALISE nom="Moneme"/> 

<SOUSBALISE nom="Trad ,, /> 

<SOUSBALISE nom= " Phono" /> 

<SOUSBALISE nom="Phonet"/> 

<SOUSBALISE nom="Graf "/> 

<TEXTE/> 

</BALISE> 

<BALISE nom="Phrase" titre="Phrase" type="string"> 
<ATTRIBUT nom="id" presence="obligatoire"/> 
<SOUSBALISE nom="Enonce"/> 

<SOUSBALISE nom="Mot"/> 

<SOUSBALISE nom= "Moneme " / > 

<SOUSBALISE nom="Trad"/> 

<SOUSBALISE nom=" Phono "/> 

<SOUSBALISE nom= " Phone t "/ > 

<SOUSBALISE nom="Graf "/> 

<TEXTE/> 

</BALISE> 

<BALISE nom="Mot" titre="Mot" type="string"> 

<TEXTE/> 

<SOUSBALISE nom= "Moneme " / > 

<SOUSBALISE nom="Trad"/> 

<SOUSBALISE nom= " Phono" /> 

<SOUSBALISE nom=" Phone t " /> 

<SOUSBALISE nom="Graf "/> 

</BALISE> 

<BALISE nom=" Moneme" titre="Moneme" type="string"> 
<TEXTE/> 

<SOUSBALISE nom="Trad"/> 

<SOUSBALISE nom=" Phono" /> 

<SOUSBALISE nom=" Phone t " /> 

<SOUSBALISE nom="Graf "/> 

</BALISE> 

<BALISE nom="Trad" titre="Traduction" type="string"> 
<TEXTE/> 

</BALISE> 

<BALISE nom="Phono" titre="Phonologie" type="string" 
<TEXTE/> 

</BALISE> 

<BALISE nom="Phonet" titre="Phon£tique" type="string 
<TEXTE/> 

</BALISE> 
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<BALISE nom=”Graf " t it re= M Graphie " type= M string”> 
<ATTRIBUT n om= "systeme" presence="optionelle TI /> 
<TEXTE/> 

</BALISE> </MENU> </JAXECFG> 

Annexe 6- 7. 8 et 9 : 


Nouveau document J' a x c 


insertion 


Arbre 


Atrributs 


| ? I Phrase 

M(T 


K 




? 

? 


0 C 

0C 




7 


0C 

0C 

0C 

0C 


me 

0 C 

f?l c 


0C 

- 


f i - 
? 


Mom 


Adjeectf 


Numeral 


Pr_perscnnei 


Oemonstratif 


I ndefmi 


Proposition 


Adver be 


Ve rbe 


Vb_auxfliaire 


Conjonction 


Negntion 


Interrogate 


Particule 


Afflxe_derivation 


Autre 


Close 


Transcripiion_phonologic|ue 
T ran£cription_phonOtipue 


Traduction 


J 


J 


J 


J 


J 


3 


-> 


1C 


Audio 


Document. Kabyle V / 

MOtadonnOes / x MOtadonnees — ^ | 
Donnees V / 

Phrase -*/ / \ Phrase -^'J 
s, Donnees ->/ \ 

• x Document_>Cabyle V | 


rs rs 


No uveau document Jaxe 


Langage Schema simple Enregislrerrrent Menus Affichage Exports Textes 


Insertion Arbre Attribute 


? Element 


? ( 

I ! V 

0 ( 

? r 


Sous-element 


Sous-ensemble 


Attribut 


Configuration Jaxe -V / 

Langage y / 

Schema simple / 

£E Element 'Metadonnees' -> / / 



Sous-element 'identificateur_fichier_son’ ->/ 1 

E 

Sous-element 'ldentificateur_fiche_collecte' ->/\ 



Sous-element Titre' ->/ 



E 

Sous-element ’Sous-titre’ ->/| 




Sous-element 'Description' 

— 

Sous-element Type_de_discours* ->/j 


= 

Sous-element 'Lieu_enquete' ^ 

✓ 

— 

Sous-element 'Date.enquete' 



Sous-element 'Informateur* -V 



E 

Sous-element ’Enqueteur" ’V 



E 

Sous-element Transcripteur 1 -y| 


“ 

Sous-element 'Controleur* V 



*3 

Sous-element 'Date_creation_modification' 

nIEEI 

ement 'Metadonnees' -V 


\ Schema simple 

\ Langage y 

\ Configuration Jaxe ->/ 
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Nouveau document Jaxe 


Langage Schema simple Enregistrement Menus Affichage Exports Textes 

1 JuUj ur.iiuit LUijULiUll tl 


Insertion Arbre Attributs 


Element 


K 


Sous-element 


Sous-ensemble 


Attribut 


3 

3 

3 


Sous-element 'Transcripteur' — >/ 1 


s— Sous-element 'Controleur 1 / 


Sous-element 'Date_creation_modification' ->/ 


x Element 'Metadonnees' V 


Element 'ldentificateur_fichier_son' y 
°E Attribut 'fichier' -V / 



Attribut 'fichier' ->/ 



Element ’ldentificateur_fichier_son' -V 


Element 'ldentificateur_fiche_collecte' ->/ y 
SE Attribut 'fichier 1 -V 

\ °E Attribut 'fichier 1 V| 

Element 'ldentificateur_fiche_collecte' ~V 


1— Element Titre' / 


Element Titre' -V| 

;E Element 'Sous-titre' -V / 

X 1E Element 'Sous-titre' V| 


ooo 


Nouveau document Jaxe 


Insertion Arbre Attributs 


Metadonnees 


( ldentificateur_fichier_son ' 

[?|( ldenttficateur_fiche_collecte 

Titre ~) 

[?j ( Sous-titre j 

Description ) 

[?](_ Type_de_discours ) 

ZD 
ZD 
) 
) 


0C 

0C 

0C 

3C 


B( 


Lieu_enquete 


Date.enquete 


Informateur 


Enqueteur 


Transcripteur 


Controleur 


3 

3 


( Date_creation_modification ) 


Document_Kabyle -V / Metadonnees V 7 Metadonnees V 
DocumentJCabyle V 
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Annexe 10 : 


Le corpus afementg ; 


y cf cinquante-huit ? 

synt. Prdpos. 


d ssebt I 


- < Bruit de fond > (00 : 00 s. - 00 : 03 s.) 

B- II Ad wen-d-hedreY I 

SPV 

A- II Ah ? II 

- < Bmlt de fond> (00 : 06 s. - 00 : 08 s.) 

A- II <euh : > alors <euh : > 

II Aqlay I di Tesga-Mellul I 

Presentatif syntagme no mina l syntagme no min al 

tnayen-u"ecrin y uct I ttes" a y ir rrbe 

syntagme nominal syntagme nominal 

C- II y ir rrbe" II 

■ ■ 

syntagme nominal 
B- II AqlaY I 

Pr6sentatif 
d ssebt I 

syntagme nominal 
ssa^a I 

indicateur de thdme 
y ir rrbe" II 


I ttes"a-wa:crin. . . I 

7 

di y uct I 


di Tesga-Mellul 

syntagme nominal 
ttes _ a-wa:crin 

syntagme nominal 

attan I dtes a <u: (hesitation) > 

presentatif syntagme nominal 


syntagme nominal 

- < Bruit de fond> (00 : 26 s. - 31 : 08 s.) 


- II Di 

Synt. prepos 
di Midi II 
synt. prepos. 

- II Ass-nni I 
Autonome 


n tmanya-uxemsin 


I yella I 

auxiliaire 


IUy I 

SPV 


< amar n imjuhad> II 
syntagme nominal 
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- II Haq I ad megroupi I 

SPV 

- II Nekkenni II 

- II Isubb-iyi-d I Dda Sliman 

SPV expansion referentielle adverbe 

si Midi II 

Synt.Prepos. 

- II NSubb-d I nebbwed I 

■ ■ 

SPV SPV 

nufa-d I 1’embuscade II 


SPV expansion directe 

- II Axatar I n^ ettel 

Subordonnant SPV 


di micli II 

synt. Prep. 


yey li-d I ttlam II. 

SPV expansion r£fSrentielle 


y er tudrin II 

SyntPrepos. 

I bessif I 


y er ssbitar I 

■ 

synt. Prep. 


mi d-ffV en I 


- II Netta I d couvre-feu I 

Pronom personnel independant Syntagme nominal 

amek I tev li I Vembuscade amezwaru II 
interrogate SPV expansion referentielle 

- II Nerga I ixeddamen I s ukamyun I 

SPV expansion directe expansion indirecte 

Proposition 1 

I ur nezmir ara I ad n eddi II 

Proposition 2 
I y er lgiha-agi II. 

synt. Prep. 

ma yella I nufa I 1’embuscade I 

SPV subordonnant auxiliaire SPV expansion directe 

y erzdat I ma ^eddan-d I adY enY en 

synt. Pr6p. subordonnant SPV (proposition!) (prop.2) 


axater 

■ 

subordonnant 

- II ntraversJ 

SPV 

- II nniY -as I 
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- II < >1 yetterdeq I ukamyun I 

SPV adverbe SPV expansion referentielle 

neqqim I d cca & I ger-aneY I 

SPV cordonnant synt. Prep. 


en dehors I des personnes de <pipa> 

?????????????????????????????? 79 ? 


int-as I i la supdrieure I 

SPV Expansion indirecte 


i la mdre 

Expansion indirecte 


- II nnan-as I ggan-aY I wehd-nnev I 

SPV SPV synt. Pr6p. 

nettes I en cbirargie II 

SPV synt. Prdp. 

- II Akken I d ttnac I 

Adverbe syntagme nominal 

qePen I y er tewrirt I 

SPV synt. Pr6p. 


synt. Prdp. 


n deggid I 

synt. Prdp. 

s tsita I 
synt. Prdp. 


di ssbitar I 


s i ejmiyen 

synt. pr6p. 


- II Ass-nni I wwten I Wizan n Mu I end Warmer I 


Autonome 

- II huzzen-tt I 

SPV 

- II uy an-as I 

SPV 

- II nY an I 

SPV 


SPV expansion directe 

deg ufus II 

synt. Prep. 

taqcict I 

expansion directe 

aeejmi II 

expansion directe 


y ef yiY il-is II 

synt. Prep. 


- II nY an I alews-is I 

SPV expansion directe 


Sa"~id At Ttaleb I 
■ ■ 

expansion directe 


dY a I wwintt-id I y er ssbitar I 

■ 

co nn ecteur (autonome specifique) SPV synt. Prep. 

- II Amek I i s-xedmen I 
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Interrogatif relatif (proposition relative) 

- II Ssawlen II 
SPV 

- II...- < Bruit defbnd>.... 

- II rrfed-itt I imir I si Midi I y er Tizi-Wezzu II 

SPV adverbe synt. Prep. synt. Prep. 

/ // Azekka-nni, / Eefsen-aney / a£win d yiSurdiyen // 

Adverbe SPV expansion directe 

S // nnan-as / i baba lhag, i baba lhag Muhend / kker // 

SPV expansion indirect SPV 

S II yey li / gar tseddarin // ; 

SPV synt. Pr6p. 

S H yenna-as / lukan d ISibad / i ay -d-wwin // 

SPV subordonnant syntagme nominal proposition relative 

/ // ur yettsuY u ara / s yiSurdiyen . . .la salle d’eau / d axxam pitru //;; 

SPV synt. Prgp Syntagme nominal 

S II akken ajirikan n waman, acifun ma jajin iY min iy amen yitu i ay 
ttawin. // 

•f II Wwin qbel / deg yimeqqranen // , 

SPV adverbe synt. Prep. 

•S II wwin / CaEban n WaEliqa / ad fell-as ye8fu Rebbi // 

SPV expansion directe 

v' // man / 8mara iqa // 

SPV expansion directe 

V //ad ak-mun Muhend Wa8 // 

■ 

SPV expansion directe 

S II meqqar . . . Rnan / dadda-k salah, Salah At-A81i // 

SPV expansion directe 
S Hi walbe8d-nneY , // 

synt. Pr6p. 

S II wwin / Yunes At-Sa8di // 
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SPV expansion directe 

S // ula d netta / ur yeqqar ara // 

SnV SV 

S // d baba-s / i yeqqaren / deg-sen / di Emara, // 

Syntagme nominal proposition relative synt. prep. Synt. prep, 
v' // uy alen-d / y ur-i / ur qqareY ara, // 

SPV Synt.prSp. SPV 

^ // daY en Ferhat SI man akked Muhend At-We£li -Ulhusin / 

■ ■ ■ 

Adverbe nominal cordonnant nominal 

^ // ur qqaren ara irkel // 

SPV adverbe 

V II mats mbe6d . . .kan xemsa n taddart / ufan / xemsa linunibr. // 

Cordonnant adverbe synt.nominal SPV expansion directe 

V // Azekka-nni, ad d-nruh / ar taddart II 

Adverbe SPV synt.prep. 

S // sukken-aY -d / seg Furbiyen, / dinna s-ddaw Uwrir // , 

SPV Synt.prep. d6ictique synt. Prdpos. 

V // Dda Muhend-Hemmu fell-as ye£fii Rebbi / 

Indicateur de theme 

//ye£wej-as uttbadri // 

SPV Expansion r£fdrentielle 

V // deg uzy al hi d-nemlal li-d hhar / s ukubri-nsen, / s les para // 

v' //. . .lhara n xali-k Ibrahim . . . / dcrfcn-d / xemsa-nni n taddart // 

■ ■ 

Syntagme nominal SPV expansion directe 

•S II hebsen-ten / ar lhid / mitrayin-ten / nY an-ten // 

■ ■ ■ ^ 

SPV synt.Pr^pos. SPV SPV 

v' // iruh cit-nni // 

■ ■ 

SPV expansion directe 

v' // apr£s wehd-s yerra-t / un peu de grace // 

Adverbe SPV 

v' // itekka-as / s yiwet / s la balle / s aqerru // , 


*“ 300 *• 


LES RES SOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


SPV synt. Prep. synt. Prep. synt. Prep. 

Y // nejbed-as . . .// // nentel-it // // t£edda dde£wa // 

SPV SPV SPV expansion rdfgrentielle 

Y II uy alen-d une deux &me fois // 


SPV 


Y II nekkni / nfaq // , 

Indicateur de th£me SPV 

Y II ur d-ufin / yiwen / yiwen (repetition) / di taddart II, 

SPV ????????? synt. Prepos. 

Y [passage d’un autre informateur] / mezz nev meqqer // 

Y II nekk / s£iy tafunast //, 

Indicateur de thfeme SPV expansion directe 

Y I I wwiv tafunast / ksiv -tt // 


SPV expansion directe 

Y //.... Deg uxxam / iruh 

Synt.prepos. SPV 

Y // ... dav nekkini / ma 

Subordonnant 

y' // tenna-ak tmettut / 

■ ■ 


SPV 

l£esker //; 

expansion rdfdrentielle 

ur iruh ara l£esker // 

■ 

SPV expansion rdfdrentielle 

dy a ad tawid tafunast II 

■ 


Y 

Y 


SPV expansion r^ferentielle 
// nekk / ad rrev 

Indicateur de theme SPV 
//yuv al, / arraw-is / 
auxiliaire indicateur de theme 


SPV expansion directe 
kan / syagi ...II 

adverbe determinant autonome 
bdan / lgem£a // 

SPV adverbe 


Y 

Y 


//ass-nnikat dssebt / dv a i 

Adverbe syntagme nominal connecteur 
// ama d wigad i xeddmen / 

Fonctionnel propositionnel SnV relatif predicatoide 
Wigad ur nxeddem ara; // 

substitut non personnel predicatoide 


neddukkel // 
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S // yiwen n yid, /tettSubbu tmettut// 

Adverbe SPV expansion r^ferentielle 

// tenna-ak / ad awiY tafunast // 

SPV SPV expansion directe 

S II nniY -as / tura ad nens : // 

SPV adverbe SPV 


S II nuqem tti£ad / 

SPV expansion directe 


ad nemlil / deg yiv zer-nni Bu-Sliman // 

SPV expansion indirecte 


S II ... Xedmen-asen 

SPV expansion indirecte 

y II i remdan-nni / deg yid, 

Syntagme no mi nal Synt.prepos. 

S II xed£en-aY akk // 


ratissage // 

expansion directe 
nerga / armi d seb£a // 
SPV syntagme predicatoide 


SPV 

adverbe 



■S H qqimeY 

-d / ala wehd-i 

■ 

/ di teswi£t-nni / 

n Sid-Lhusin II 

■ 

SPV 

synth&me adverbial 

synt. pr£pos. 

Synt.prepos. 
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Annexe 11 et 12 : 


1 450000 


0.1187 

0 

-0 0293 

-0 1316 
5000 Hz 



(win ur ) G'HD (ara) RH%) EWN W QLB MN 


8 


(win ur n— -i— -d ara ad i— u — (a) da— i— -in, a D- ya— i a D- i a 


win uneg'hid ara ad irulr atae^vinin aDyawi aDiqeLeb aman 


win u(r) n- G‘liid ara ad i- rub; a fiewiniti a D- yawi a D- i-qLb aman 


win ur neg’bid ara ad iruh’ a taevVitiin ad d-yawi ad d-iqelleb aman 


ceiui negation avoir ia force+participe n6h-reel il-alier a sources non-reel vers-ici i 


celui qui n’est pas riche, il n’a qu’a aller 1 aux sources pour en chercher de I'eau. 


Q 


1.450000 


1 450000 


Visible pan 2.900000 seconds 
Total duration 2.900000 seconds 


2.900000 


500 Hz 


I73HZ 












) 
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Abstract 

This paper gives an overview of the morpho-syntactic features of the Amazighe 
language and corpus encoding, afterwards we present our experience of 
constructing an annotated corpus with part-of-speech (POS) information. The 
annotated corpora consist of 20,667 Moroccan Amazighe tokens chosen from 
different materials; it is to our knowledge the first one dealing with Amazi ghe 
language. The experience is also meant to give a hand le on the encoding and 
tagging processes of the aforementioned carpus. 

1. Introduction 

Amazighe language is spoken in Morocco, Algeria, Tunisia, Libya, and Siwa (an 
Egyptian Oasis); it is also spoken by many other communities in parts of Niger and 
Mali. It is a composite of dialects of which none has been considered as die 
national standard in any of the already mentioned countries. With the emergence of 
an increasing sense of identity, Amazighe speakers would very much like to see 
their language and culture rich and developed. To achieve such a goal, some 
Maghreb states have created specialized institutions, such as the Royal Institute for 
Amazighe Culture (IRCAM, henceforth) in Morocco and the High Commission for 
Amazighe in Algeria. In Morocco, Amazighe has been introduced in mass media 
and in the educational system in collaboration with relevant ministries. 
Accordingly, a new Amazighe television channel was launched in first March 2010 
and it has become co mm on practice to find Amazi ghe taught in various Moroccan 
schools as a subject. 

Over the last 8 years of its creation, IRCAM has published more than 150 books 
related to the Amazi ghe language and culture, a number which exceeds the whole 
amount of Amazi ghe publications in the 20th century, showing the importance of 
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an institution such as IRCAM. However, in Natural Language Processing (NLP) 
terms, Amazighe, like most non-European languages, still suffers from the scarcity 
of language processing tools and resources, hi line with this, and since corpora 
constitute the basis for h uman language technology research; yet they are difficult 
to have for a number of languages - particularly annotated ones. In this paper we 
try to shed light on an experience of constructing an annotated corpus along the 
information provided by part-of-speech (POS); the corpus consists of over than 20k 
Moroccan Amazi ghe tokens. The experience is also meant to give a handle on the 
encoding and tagging processes of the aforementioned corpus. To our knowledge 
the annotated corpus presented in this paper is the first one to deal with Amazighe. 
This resource even though small, is very useful for training taggers, themselves 
basic tools for more advanced NLP. 

The rest of the paper is structured as follows: in Section 2 we present an overview 
of the Amazighe morpho-syntactic features. Then, in Section 3 we describe corpus 
encoding. In Section 4 we present the manner in which the annotation was 
undertaken. Finally, in Section 5 we draw some conclusions and describe the work 
to be done in the future. 

2. Morpho-syntactic specifications and tagset 

2.7. Some Amazighe language features 

Amazighe belongs to the Hamito-Semitic/“Afro-Asiatic” languages (Cohen 2007) 
with a rich morphology (Chafiq 1991, Boukhris et al. 2008). Amazighe is used by 
tens of millions of people in North Africa mainly for oral communication. 
According to the last governmental population census of 2004, the Amazighe 
language is spoken by some 28% of the Moroccan population (millions). 

Amazighe standardization is t aking into consideration its linguistic diversity. As far 
as the alphabet is concerned by standardization, and because of historical and 
cultural reasons, Tifinaghe has become the official graphic system for writing 
Amazighe. IRCAM kept only pertinent phonemes for Tamazight, so the number of 
the alphabetical phonetic entities is 33, but Unicode codes only 31 letters plus a 
modifier letter to form the two phonetic entities: X u (g w ) and R u (k w ). The whole 
range of Tifinaghe letters is subdivided into four subsets: the letters used by 
IRCAM, an extended set used also by IRCAM, other neo-tifinaghe letters in use 
and some attested modem Touareg letters. The number reaches 55 characters 
(Zenkouar 2008, Andries 2008). hi order to rank strings and to create keyboard 
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layouts for Amazigh in accordance with international standards, two other 
standards have been adapted (Outahajala and Zenkouar, 2008): 

- ISO/TEC14651 standard related to international string ordering and comparison 
method for comparing character strings and description of the common template 
tailorable ordering; 

- Part 1: general principles governing keyboard layouts of the standard ISO/IEC 
9995 related to keyboard layouts for text and office systems. 

The graphic rules for Amazighe words are set out as follows (Ameur et al 2006a, 
2006b): 

- Nouns, quality names (adjectives), verbs, pronouns, adverbs, prepositions, 
focalizers, inteqections, conjunctions, pronouns, particles and determinants consist 
of a single word occurring between blank spaces or punctuation marks. However, if 
a preposition or a parental noun is followed by a pronoun, both the 
preposition/parental noun and the following pronoun make a single whitespace- 
delimited string. For example: MO (yr) “to, at” + ( (i) “me (personal pronoun)” 
results into MoOt/MSOt (yari/yuri) “to me, at me, with me”. 

- Amazighe punctuation mar ks are similar to the punctuation marks adopted 
internationally and have the same functions. Capital letters, nonetheless, do not 
occur neither at the beginning of sentences nor at the initial letters of proper names. 

The English linguistic terminology used in this paper was extracted form (Boumalk 
and Nait-Zerrad, 2009). 

22. Amazighe tagset 

Based on the Amazighe language features presented above, Amazighe tagset may 
be viewed to contain 13 parts-of-speech with two common attributes to each one: 
“wd” for “word” and “lem” for “le mma ”., whose values depend on the lexical item 
they accompany. 

The defined Amazighe elements and their attributes are set out in what follows: 


POS 

attributes and subattributes with number of values 

Noun 

gender(3), number(3), state(2), derivative(2), 
POSsubclassification(4), person(3), possessomum(3), 
possessorgen(3) 

Adjective/ 

name 

gender(3), number(3), state(2), derivative(2), POS 
subclassification(3) 
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of quality 


Verb 

gender(3), number(3), aspect(3), negative(2), form(2), 
derivative^), voice(2) 

Pronoun 

gender(3), number(3), POS subclassification(7), deictic(3), 
person(3) 

Determiner 

gender(3), number(3), POS subclassification(ll), deictic(3) 

Adverb 

POS subclassification(6) 

Preposition 

gender(3), number(3), person(3), possessomum(3), 
possessorgen(3) 

Conjunction 

POS subclassification(2) 

Intellection 


Particle 

POS subclassification(7) 

Focus 


Residual 

POS subclassification(5), gender(3), number(3) 

Punctuation 

punctuation mark type(16) 


Table 1 . A synopsis of the features of the Amazighe POS tagset with their attributes 

and values 


In Table 1, the subcategories of the noun are: 


(i) Gender: 1 . Masculine 

2. Feminine 

3. Neuter 


(ii) Number: 1 . Common 

2. Singular 

3. plural 


(iii) Derivative: l.No 

2. Yes 



(iv) POS type: 1. Commun 

(v) State : 1. Construct 2.Free 

2. Numeral 

3. Parental 

4. Proper 


When a noun is parental, it it might have 3 aditional attributes: possessor gender, 
possessor number and possessor person. Adjectives, called also quality names 
inherit the propreties of nouns. It may be a derivative or not. The subcategories of 
the adjectives are: 

POS type : 1. Ordinal 2. Qualificative 3. Relational 

The subcategories of pronorms are: 

1. Demonstrative 2.Exclamative 3. Indefinite 

4.Interrogative 5. Personal 6. Possessive 7. Relative 
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The verb attributes that have been used in our tagset are: 


(i) Gender: 1. Masculine 

2. Feminine 

3.Neuter 

(ii) Number: 1. Common 

2. Singular 

3. plural 

(iii) Person: 1. 1 (first) 2. 2(second) 3. 3 (third) 

(iv) Aspect: 1 . Aorist 

2. Perfective 

3.1mperfective. 

(v) Form: 1 . Imperative 

2. Participle 


(vi) Derivative: 1 . No 

2. Yes 


(vii) Voice: 1 . Active 

2. Passive 



Aspect attribute have “negative” as sub attribute with two values: negative and 
positive, when the aspect is equal to perfective. The subcategories of determinants 
are: 


1. Article 2. Demonstrative 3.Exclamative 4.1ndefmite 


5. Interrogative 6. Numeral 7. Ordinal 

9. Presentative 10. quantifier 

8. Possessive 
11. other 

The adverb types are subdivided into: 

1. Interrogative 2. Manner 3. Place4. Quantity 

5. Time 6. Other 


The subcategories of particles are: 

1. Interrogative 2. Negative 3. Orientation 

5. Preverbal 6. Vocative 7. Other 

4. Predicate 


Residual label stands for attributes like currency, number, date, mathematical 
mar ks and other unknown residual words. The punctuation category contains all 
punctuation symbols, such as (?, !, :, ;, .). Elsewhere, conjunctions are 
subcategorized to coordination and subordination conjunction. 

3. Corpus encoding 

3.4 Writing systems 

Amazighe corpora produced up to now are written on the basis of different writing 
systems, most of them use Tifinaghe-IRCAM (Tifinaghe-IRCAM makes use of 
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T ifinaghe glyphs but Latin characters) and Tifinaghe Unicode. It is important to 
say that the texts written in Tifinaghe Unicode are increasingly used. 

Even though, we have decided to use a specific writing system based on ASCII 
characters for technical raisons (Outahajala et al. 2010). 


Correspondences between the different writing systems and transliteration 
correspondences are shown in Table 2. 


Tifinaghe 

Unicode 

Transliteration 

Used characters in 
Tifinaghe IRCAM 

Chosen 

characters 

for 

tagging 

Code 

Character 

Latin 

Arabic 

characters 

codes 

U+2D30 

o 

a 

t 

A, a 

65, 97 

a 

U+2D31 

e 

b 

• 

B, b 

66,98 

b 

U+2D33 

X 

g 

uS 

G, g 

71, 103 

g 

U+2D33 

& 

U+2D6F 

x u 

g w 

s + 

A, a 

197,229 

g° 

U+2D37 

A 

d 


D,d 

68, 1 00 

d 

U+2D39 

E 

d 

■ 

lh* 

A, a 

1 96, 228 

D 

U+2D3B 

o 

o 

e 1 

!#■ 

E.e 

69, 1 01 

e 

U+2D3C 

H 

f 

m 

F, f 

70, 102 

f 

U+2D3D 

K 

k 


K, k 

75, 1 07 

k 

U+2D3D 

& 

U+2D6F 

K“ 

k w 

S + 

/E, SB 

1 98, 230 

k 

U+2D40 


h 

A 

H, h 

72,104 

h 

U+2D40 

X 

h 

■ 

z 

P.P 

80,112 

H 

U+2D44 

l>1 

£ 

t 

0, o 

79, 111 

E 


1 note : different use in the IPA which uses the letter a 
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Table 2. The mapping from existing writing systems and the chosen writing 

system. 

A transliteration tool was built, Figure 1, in order to han dle transliteration to and 
from the chosen writing system and to correct some elements such as the character 
“ A ” which exists in some texts due to input errors in entering some Tifi na ghe 
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letters. So the sentence portion ‘«@G I tHYO*’ using Tifimghe Unicode or “ass n 
tm A via K ' using Tifinaghe-tRCAM and with “ A ” input error will be transliterated as 
“ass n tmGm” (“Whan die day of 4te wedding arrives”). 



Figure 1 . Amazighe tranglit&ration tool 


S3 Corpus description 

To constitute our corpora, we have chosen a list of texts extracted from a variety of 
sources such as: the Amazighe version of IRCAM's web site", the periodical 
ihghmisn n usinag*'* (ERCAM newsletter) md three of the primary school 
textbooks. Table 3 gives a description of chosen sources. 


2 ™>.)M JM-fflft 

- Freely downloadable hem Mji:ftevrw.it ma t m{&mfMJZx . ehn?Boe=biille 
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Corpus description 

Tokens number 

Sentences number 

Textbook manual 2 

5079 

372 

Textbook manual 5 

2319 

179 

Textbook manual 6 

3773 

253 

IRCAM web site 

4258 

185 

Inghmisn (IRCAM 
newsletter) 

4636 

415 

Miscellaneous 

602 

34 

Total 

20667 

1438 

Table 3. Corpus description. 

Labeled class 

Designation 

Occurrences 

V 

Verb 

3190 

n 

Noun 

4993 

a 

Quality name/Adjective 

503 

ad 

Adverb 

516 

c 

Conjunction 

834 

d 

Determinant 

1076 

s 

Preposition 

2775 

foe 

Focalizer mechanism 

91 

a 

l 

Interjection 

40 

P 

Pronoun 

1496 

pr 

Particle 

1593 

r 

Residual (foreign, number, 
date, currency, mathematical 
and other) 

178 

f 

Punctuation 

3382 


Total 

20667 


Table 4. Part-of-speech occurrences 
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After transliterating to the chosen writing system, the corpora, as well as the 
morpho-syntactic specifications, are encoded using XML. Each token is labeled 
with the attributes and the sub attributes presented in Table 1 using the annotating 
tool presented below. 

We were able to tag 20,667 tokens with a total number of 1,438 sentences. Table 3 
summarizes the details of the parts-of-speech occurrences of the chosen corpora. 

4. Annotating the corpus 

The corpora presented in this paper are manually anno tated This manual 
annotation, which was performed by a team of four annotators, consists of affecting 
the different morpho-syntactic features to the tokenized Amazighe texts. 
Technically, manual annotation was done by the AncoraPipe 4 annotation tool 
which is an Eclipse Plugin. Eclipse is an extendable integrated development 
environment. With this plugin, all features included in Eclipse are made available 
for corpus annotation and developing. AncoraPipe is a corpus annotation tool 
which allows different linguistic levels to be annotated efficiently by (Bertran et al. 
2008), since it uses the same format for all stages. AncoraPipe was used in 
annotating two corpora of 500,000 words each: a Catalan corpus (AnCora-CAT) 
and a Spanish (AnCora-ESP) one, (Civit & Marti 2004). The annotation tool 
interface is organized in different panels where data are shown, buttons and menus 
are available to perform operations on the corpora, such as grouping and splitting. 
To perform annotation many panels are used: corpora directory tree panel which 
allows the user to select a file, sentence list panel shows the sentences of a file, 
sentence tree permitting to the user to see the data of the annotation level together 
with lemmas and words and annotation panel performing the annotation operations 
on the tree and annotate its nodes. 

The interface is fully customizable to allow different tagsets defined by the user. In 
line with this, we have defined a specific tagset to annotate Amazighe corpora. The 
requirements for AnCoraPipe are: Java 1.5 and the Java graphical library SWT. It 
includes SWT library for Windows XP. In other platforms, this library comes with 
the Eclipse package or it can be obtained from eclipse web site directory 5 . 

The input documents have an XML format, allowing representing tree structures. 
As XML is a wide spread standard, there are many tools available for its analysis, 


4 http://clic.ub.edu/ancora/ 

5 http://www.eclipse.org/swt/ 
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transformation and management. Figure 2 shows the annotation of a sentence 
extracted from a text about a wedding ceremony: 

“ass n tmGra, ilia ma issnwan, ilia ma yakkan i inbgiwn ad ssirdn” 

[English translation: “When the day of the wedding arrives, some people cook; 
some other help the guests get their hands washed”] 

<sentence> 

<n gen= "m " lem= "ass " num= "s " wd= " ass "/> 

<s wd="n"/> 

<n gen ="f” \em="tamGra" num= V state= "construct" wd ="tmGra"t> 

<f punct= " comma " wd= ", "/> 

<v aspect= "perfective " gen="/n" lem= "ili" num= V' person="J" wd-"illa”/> 

<p postype= "relative " wd= "ma "/> 

<v aspect ="imperfective" form= "participle " lem="ssnw" wd= "issnwan "/> 

<f punct= " comma " wd= ", "/> 

<v aspect= " perfective " gen= "m " lem =”ili” num=V person="3" wd=" ilia" f> 

<p postype= " relative " wd= "ma "/> 

<v aspects "imperfective " form= "participle " lem= "Jk " wd= "yakkan "!> 

<s wd="i"/> 

<n gen="m" lem =”anbgi" num="p" state= "construct " wd= "inbgiwn" f> 

<prpostyp ^"aspect" wd='W'/> 

<v aspect=”aorist” gen="m" lem ="ssird" num="p" person="3 " v/d=" ssirdn" /> 

Figure 2. An annotation example 


We have used XSLT to generate output files which allow validation of the 
annotated corpora. Annotation speed is between 80 and 120 tokens/hour. 
Randomly chosen texts were revised by three other linguists. On the basis of the 
revised texts inter-annotator agreement is 94.98%.Common r emar ks were 
generalized to the whole corpora in the second validation by a different annotator. 
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The m ain aim of this corpus is to learn an automatic POS tagger based on Support 
Vector Machines (SVMs) and Conditional Random Fields (CRFs) because they 
have been proved to give good results for sequence classification (Kudo and 
Matsumoto, 2000, Lafferty et al. 2001). We are using freely available tools like 
Yamcha and CRF++ toolkits 6 . First results are very promising with more than 88% 
of accuracy. 

5. Conclusions and future works 

In this paper, after a brief description of the morpho-syntactic features of the 
Amazighe language and corpus encoding, we have addressed the basic principles 
we followed for tagging Amazighe written corpora, containing 20,667 tokens, with 
AnCoraPipe: the tagset used, the transliteration and the annotation tool. We plan to 
make available soon for research purposes the final version of the corpus. 

Appendix A shows the result of applying the tagset to a sample of real Amazighe 
text, which proves that the defined tagset is sufficient in describing Amazighe with 
morpho-syntactic information. 

We are planning to approach base phrase chunking by han d labeling the already 
annotated corpus with morphology information, afterwards to achieve an automatic 
base phrase chunker. 
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Appendix A. 

This paragraph is an extract from a text about “tamGra” [weddings], one of the 
collected texts described in the subsection 3.2. It shows the result of applying the 
tagset to a sample of real Amazighe text. 

tHsi_ili-verb-perfective-f-s-3 tmGra_ tamGra- noun-common-f-s-construct dar_ 
dar-prep wadj arn_ adjar-notm-common-m-p-construct nnG_nnG-det- 
possessive-c-p-1 ._punct-period 

ira.iri-verb-perfective-m-s-3 urba_ arba-noim-commun-m-s-construct 
nnsn_nnsn-det-possessive-m-p-3 ad_ ad-particle-preverbal itahl_ tahl- verb- 
aorist-m-s-3 . -punct-period ar_ ar-particle- preverbal as_prep- 
pronounpGen:c-pronounNum:s-3 ttHyyaln Hyyl-verb-imperfective-m-p-3 i _i- 
prep tmGra tamGra-noun-commun-f-s-construct sam ann-det-demonstrative- 
distance sg sg-prep usgg°RS_asgg 0 as-noun-common-m-s-construct Ui_ lli- 
pron-relative izrin_zri- verb-participle- perfective pimct-period 
sGan _sG-verb-perfective-m-p-3 V3<gm.Jdgan-det-quantity n_n-prep 
ifckan_afcku- noun-common-m-p -construct punct-comma Gm_ Gr- verb- 
aorist-m-p-3 \_prep kigan det-quantity n_n-prep mddn middn-noun- 
common-m-p -construct -punct-comma nggar uggar-det-quantity n n-prep 
snat sin-noun-numeral-f-p -construct tm&D timiDi- noun-numeral-f-p - 
construct . .-punct-period 
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Construction et exploitation de corpus audio a 

l'aide du logiciel ITE 


Kamal Nait-Zerrad 

ttialco, Lacnad-Centre de recherche berbere (Paris) 

knaitzerrad@inalco.fr 


1. Corpus sonores et logiciels de saisie 

Les enquetes de terrain, donnent lieu au recueil de corpus oraux qui demandent a 
etre transcrits. L’6tendue des transcriptions, traductions et annotations dependent 
de l’objectif d6sir6. Dans notre pratique, nos besoins les plus courants sont une 
transcription phonetique -plus ou me ins fidele -, une transcription phonologique, 
une glose morphosemantique et une traduction libre. II s’agit en effet de pouvoir 
travailler correctement sur ces donnees apres l’enquete. 

II existe aujourd’hui des logiciels plus ou morns sophistiquis pour r6aliser ces 
taches. Ils ont chacun leur utility selon que l’on s*int6resse plus i la phonetique, & 
la morphosyntaxe, etc. Citons par exemple Praat ( ww.praat.org! . qui est outil 
pour analyser le signal acoustique ; Transcriber fhtto ://trans.sourceforge.neti . qui 
permet en pardculier de transcrire des dialogues ; Elan fwww.lat- 
mpi.eu/tools/elan ), logiciel tr6s complet, qui permet l’integration audio et video et 
plusieurs niveaux d’analyse et ITE, dont il sera question ici. 

2. ITE : Inter] near Text Editor 

Interlinear Text Editor (ITE) 1 est un logiciel qui permet aux de saisir un corpus 
oral sur au moins deux niveaux : la transcription (phonetique ou phonologique) et 
sa glose interlineaire. La glose morphosemantique peut etre aussi detaillee que 
voulu. Les annotations portent sur quatre niveaux: le texte, la phrase, le mot et le 
morpheme. Les niveaux mot et morpheme presentent de maniere alignee les 


1 Le logiciel ITE est librement disponible sur le site de son auteur Michel Jacobson 

nittp://michel.iacobson.free.frl . 
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contenus de la transcription et de la glose. A mesure que la glose est introduite, elle 
est enregistree avec la transcription correspondante sous forme de lexique. Cela 
permet de faciliter la saisie car des que le programme rencontre une transcription 
deja traitee, il propose la glose enregistree. On peut done la prendre directement ou 
bien en proposer une autre. Les donn6es sont structures dans le format XML. 

ITE poss&de bien entendu des outils pour rdaliser des concordances et des lexiques. 
II permet egalement de faire des recherches tres precises sur la transcription ou la 
glose. L’interrogation s’effectue a l’aide d’ expressions regulieres et du langage 
XPath sur les differents niveaux de saisie (mot, morpheme, glose). 

Ajoutons que le programme est trds souple, on peut l’utiliser avec des DTD 
propres. 

3. Le corpus 

II s’agit d’un extrait de corpus recueilli dans le cadre d’une th6se de doctorat 
(Takhedmit-Sadoudi, 2006) qui sera utilise ici pour illustrer les possibility 
d’ exploitation par ITE. II s’agit d’un entretien entre l’enquetrice et une enquetee en 
Kabylie sur des themes de societe. 

4. Exploitation du corpus 

Nous allons donner des exemples montrant Tutilisation du corpus pour differentes 
recherches : simple, de concordances sur un element precis, etc. Mais d’abord, 
voyons comment se presente les transcriptions. 

4. 1. Lesfenetres de ITE 

La fenStre principale du logiciel est en fait celle de la saisie (figure 1). On voit sur 
cette capture d’dcran un 6nonc6 repr6sentee par deux lignes pour le niveau 
« morpheme » : ici la premiere est basde sur une transcription usuelle d’inspiration 
phonologique avec un d6coupage de mot le plus fin possible (pom un verbe par 
exemple : radical et indice(s) de personne). La seconde ligne constitue la glose 
morphosemantique la plus precise possible. Par exemple, pour un radical verbal, on 
peut indiquer si les themes d’aoriste et de preterit sont identiques, si les deux 
themes de preterit (positif et negatif) sont confondus, etc. Pour un no minal, on peut 
par exemple indiquer si les deux etats (libre et annexe) sont identiques. Ces details 
permettent d’effectuer des recherches les plus fines possibles. 
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Figure 2:fenetre principale du logiciel ITE 

Pour le niveau « glose », il faut done etablir un syst^me d’abreviations plus ou 
morns important selon les resultats recherches. On peut citer encore quelques 
elements qui ont une abreviation propre : 

- les nominaux : l’etat libre et l’etat d’annexion ainsi que les cas ou les lexemes ne 
connaissent pas l’opposition morphologique ; 

- les diffSrents affixes et clitiques sont marques differemment (possessifs, s£rie 
directe, serie indireete, etc.) 

- les verbes : On indique les verbes de qualite, les morphemes discontinus (indices 
de personne, indice de participe, negation, etc.) 

- et bien entendu, tous les autres elements grammaticaux : particules, prefixes de 
derivation, deictiques, etc. 

II est egalement possible, a partir du corpus transcrit et pre-segmente avec un 
logiciel de traitement de texte quelconque de l’integrer directement dans ITE a 
l’aide d’une feuille de style adequate. II ne reste done plus qu’a saisir les gloses. La 
phrase prise comme exemple ci-dessus dans les figures 1 et 2 sera ainsi 
d6compos£e : 
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ye-kker-d ulews—is u d-ye-mmezg ora yid—s nev i-maZZed i-ger afus deg—s a 
tt-ye-wwet nev a s-ye-xdem lha§a ye-lla-n... 

Le tiret simple « - » indique un indice de personne ou de participe lie a un verbe et 
le signe « = » indique un affixe lie a un nom, un verbe ou une preposition. 

La figure 2 montre le m@me enonc£ que l’on peut visualiser sur le niveau 
« phrase ». On peut egalement visualiser le corpus entier sur le niveau « texte » et 
les mots sur le niveau « mot ». 



Figure 3 : fenetre montrant la transcription d'une phrase 
42. Concordances 

Pour la linguistique, la possibility de visualiser et de traiter des concordances 
precises permet d’etudier 1’ element recherche dans son contexte et son cotexte. Par 
exemple, la figure 3 montre la recherche de la particule predicative d « c’est, ce 
sont ». On sait qu’en berbdre il existe au moms 3 homonymes (homophones et/ou 
homographes) pour cette particule : la particule predicative, la particule 
d’orientation et la preposition. Si la glose a ete bien faite, elle permet justement de 
differencier entre ces trois elements. Ici, la particule predicative est designee par 
l’abreviation « PP », ce qui permet d’ajouter une expression XPath qui va, parmi 
les differents « d », rechercher uniquement ceux qui correspondent a la glose 
« PP ». II faut egalement preciser que la recherche se fait au niveau 
morphematique et on peut ajuster le nombre de mots a droite et a gauche du mot 
recherche. L’expression XPath peut concemer la glose ou la transcription et peut 
etre aussi precise qu’on le desire en employant toutes les possibility de ce langage. 
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Figure 4 : options de recherche pour une cotieordance, id, la particule pridkanve 

* d » 


On obticat k? ifeallist pi&jent£ & Is figure 4. Qm ressort par example un certain 
nouibre de structures peu 6tudke* et qui re sons p«§ sum ! rases qu'on k p ease 
eomme les ciivfea 4 siibcenlraake ftominele. On pent Sgateirent remaxquef 
I’utrlisatian de is pattksste pr6v Br t»ab «a» on «ars » darts lea dnnfies od Is verbs 
de is sabonkmtee cat i l'aodste et dont ies ooiiditJCKSs d’afTperiticTt resfcsnt £ 
ditmnmo. 

43, Lextquee 

Le logtetel perm** db cdkr un lerique de unites k& formes siw (roots ou 
rnorphAines) «u dormant le nombro d’ occurrences et bias entsrsdu Is t raduction ou 
la gloss. On pent modifier le tri : alpbsfe&ique poor les transcriptions ou Is® gloats, 
dsns l’oidrc croissant ou d&roissant pour les occurrences, ... On voit par exemple 
but Is figure 5 qus ce sont Is psrticule duricrjisttesi et is pszticuie predicative 
(toutet deux « <3 ») qui sontles plus ft&juentea. 
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doturrant](fsdBla_1_4_EBn.Mml 1, yTE 

nnuba nnuba kmaa kan a&agg'as-a d 

lamaxrsm A 1 ? q^hel d 


dotumantfl^dEla 1 4 iflri.iim! 1 ')iTE 

dfamejra pwsqabal d 

lamapra n wavedilqtlctn de|en 


d o c u m a n n Ta da 1 a_l _4_ fen nixm r )jT E . 

u d-ggar-en ara Iman-ps.en ma d 

lilufa-yagi akk’ qmetiuhln1-i.amr-edraient\seh(4-m 


dot uma (HCfadElaJ _4_E-DN.Kmr:uTE. 

Sura a m-d-pusHf la quafetiop-aql d 

linna ara d-y-aE-en d lamaiwaml 


dot-um? nt'Hadsia i 4 Enn.Hml'jyfE. 

gwaami i d+lul-ed arma d 

njrgla-cii-ri-as-d akk:a mi met-iub-dd 


documantifCadEla 1 4 snn^mryiTE 

fca asfi^nnl d-WrEwUkkEltlannejwarqt d 

wlnns akk L u1a4tetluwBra 


dotutrianh;fadela_1_4_E:Bri.Krrir:iiTE 

wehd-ip lldan ih lldan mm£<!i d 

heud era kEirH-chm-En dag-dentamsaP^et-^ani 


d o oil m a n d; ra d a 1 O _4 _ a an :'xrri r }jT E . 

ara aktT a d-nlbi-nS aklt:" d 

JE-Eh d 5 -sep E-stead skkagl 


dt3cumanti(f3dBla_'1_4_Enn.Mml H VTE. 

a d-rribi-nl akk‘ d ssgh d 

^bM l-qf-ed akks^i i hemmi 



Figure 5 : resulted de la recherche de concordances 






□ morpheme lexicon 


1*1 

File 




transcription 

gloss 

occurrences i (1) 


d 

PROX 

41 

da. 

d 

PP 

40 


i 

RE LI 

■ J O 
1 J il. 


a 

POT 

n n 

■J L_ 


ed 

SUJ2S" 

28 


ye 

SU.J3MS 

28 


t 

SUJ2S' 

28 


u 

NEC 

20 


te 

SU.J2S' 

18 


ara 

F'OSTNEG 

17 


d 

SUJ2S" 

17 


ney 

ou 

17 


te 

SU.J3FS 

16 


ini 

dire.AOR 

14 


0 

dans 

13 


% 

SUJt S 

12 


kern 

DIR2FS 

12 


akk" 

tout 

12 


ara 

RE LA 

10 


tell 

sur 

10 


zemr 

pouvoir.X.PRET 

10 


ma 

si 

9 


lia 

etre FRET 

9 


im 

POSS2FS 

9 



Figure 6 : Extrait du lexique engendri par ITE & partirdu corpus transcrit, id par 

ordre dicroissant du nombre d 'occurrences. 
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44. Integration multimedia 

L’enregistrement sonore peut etre associe au texte a l’aide de l’editeur de texte 
XML et de son Soundlndex (SI.TCL) realise en Tcl/Tk 2 . E. permet d’inserer des 
balises audio & un niveau quelconque du document XML. 

Le document fina l (texte + son) peut alors etre lu par ITE phrase par phrase, ou 
meme a un niveau inferieur selon l’objectif desire : les balises peuvent etre 
integrdes au niveau de la phrase ou d’un mot. Bien entendu, on peut lire et 6couter 
tout le corpus dans l’onglet « texte ». 

Etant donne la flexibility de ITE, on peut egalement integrer un enregistrement 
video. 



Figure 7 :fenetre de Vediteur SiTcl 


Le logiciel Sounlndex est librement disponible sur le site de son auteur Michel Jacobson 

Oittp ://micheli acobson.free .&) 
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Dans l’exemple presente en figure 6, nous avons decoupe l’enregistrement par 
« phrases », delimitees par la balise <S> et </S>. Le logiciel permet done de 
marquer chaque phrase a partir de la sequence audio correspondante et attrihue 
automatiquement la balise <audio> indiquant le debut et la fin de la sequence. Les 
figures 1 et 2 montrent comment le son est materialist dans la fenetre principale. 

45. Autres possibilites 

On peut erter des feuilles de styles (xslt) et les appliquer pour obtenir difftrentes 
presentations, transformations ou decoupage du texte. Par exemple, on peut obtenir 
une presentation juxtalintaire de la transcription et de la glose, directement £ partir 
de ITE (il s’agit de la phrase prise comme exemple dans la fenttre ITE, figure 1) : 

ye-kker-d ulews-is u d-ye-mmezg 

SUJ3MS-se.lever.X.PRET-PROX beau-fr6re.EA-POSS3S NEG PROX-SUJ3MS- 

s'entendre.X.Y.PRETN 

ara yid-s ney i-mazzed i-ger afus 

POSTNEG PL-IND3S ou SUJ3MS-s'6tirer.Y.PRET SUJ3MS-mettre.X.PRET main.EL 

deg-s a 

dans-EMD3S POT 

tt-ye-wwet aey a s-ye-xdem U^aga 

DIR3FS-SUJ3MS-frapper.X.PRET ou POT rND3S-SUJ3MS-travamer.X.AOR chose.(EL) 

ye-11arn 

PPF-£tre.PRET-PPE" 

5. Conclusion 

Compart a un logiciel sophistique comme ELAN, ITE possede certaines limites 
comme le nombre de niveaux d’analyse. Cependant, il prtsente l’avantage de la 
simplicitt d’utilisation avec des possibilites d’ exploitation et d’analyse ttendues. 
En effet, comme nous l’avons indique plus haut, la glose morphosemantique peut 
etre tres fine, elle peut associer un tltment de transcription a une abrtviation qui 
permet de le retrouver dans son contexte sans ambiguitt possible avec un 
homonyme. La precision des gloses permet tgalement de faire diverses statistiques 
sur les unites lexicales et grammaticales. 
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Un autre avantage du logiciel tient dans l’ecriture des gloses. A partir d’un corpus 
assez important, les gloses se font pratiquement automatiquement puisque ITE les 
enregistre au fur et a mesure de leur saisie en les associant a la transcription 
correspondante. Des que ITE rencontre une transcription avec une glose connue, il 
la propose : soit elle est accepts par l’utilisateur soit il foumit une autre glose. 

Ce logiciel nous semble done tout & fait ad6quat comme aide k 1’ analyse 
linguistique des corpus oraux. 
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A^lljLX AjjoJJ^ Ajl (jj jLoJ Sja li^Llajl 

l) ‘ uj^' diVj^l (le comportement syntaxiques) 

;^2c* J)j£^)j]l (jx IgJ Aj V tAiAll j aJ^LuuII Ijllq ^JuixluL^l] 

l^_La i c\l"n ^511 CjV jjLall (J£J AaSjju^oII 4_mll AA^kJ 4 CjLo jLuaJl AjAr^ - 

<tl^W C_iU_^£-a1I AA^»j ^ajSjaJI AjA^j - 

,L? AJ > ^ AAL^^aI ^IVaII ^jj£jaJ1 (JIajju^V^ AjA^j ^ja ^j£-aj ^a!1 AjA^j - 

SXcuxaII j-aIIj 
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<n gen=”m” lem=”azgn 1 ’ num=”s” postype=”common” state=°construcf 
wd=”uzgn”/> 

<s lem=”n” wd=”n”/> 

<n gen=”m” lem=”ass” num=”s” postype=”common” state=’construct ,! 
wd=”wass ”/> 

</grup.prep> 

<f punct=”period’ wd=”.”/> 

•A , /il A. 1l A \ aa ^ 
♦ * 

I CCKH8 VoO oEAAoRO I 0000. 

ICCKH8 :j* j ^ - 

VoO oCAAoKO I ©0©0 : J*>J L r^J- a - 

<sentence> 

<grup.verb Typecompl= subjectivar> 

<v aspect- perfective” gen=”c” lem-’mmklu” num=”p” person- 1” 
wd=”nmmuklu7> 

</grup.verb> 

<grup.prep Typecompl 1ocative”> 

<s lem=”Gar” wd- Gar”/> 

<n gen=”m” lem=”amddakl” num=”s” postype-’common” 
state=”construct‘ wd= umddukl”/> 

<s lem=”n’ : wd=”n”/> 

<n gen=”m” lem=”bab” num=”s” person=”1” possessorgen=”c’ : 
possessornum=”s” postype-’parental” wd=”baba”/> 

</grup.prep> 

<f punct=”period' wd-”.”/> 

</sentence> 
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- IE EH oOPtA. 

<grup.verb T ypecompl=”subjectivaI”> 

<v aspect- ’imperfective” gen=”c” lem=”TTf num=”p” person-”! ” 
voice=”active” wd=”nTTf” /> 

</grup.verb> 

<grup.nom Typecompl- ’locative > 

<n Typecompl=”locative” gen=”m” lem=”abrid” num=”s” 
postype- common” state-’free” wd=”abrid”/> 

</grup.nom> 

<f punct- comma” wd=’ , /> 

- HUE VO KoXSOo VO g%XI I Uo00. 

1 — A * c ji'j aLo-sJ 

HUE : - 

(J-SJI AiJij ^ VO ^oXoOo: j*j ^ j* - 

A k^j ^ VO SXXI I UoO: - 


<grup.verb Typecompl=”subjectival”> 

<v aspect- perfective” gen=”c” lem=”awD" num-’p” person=”1” 
voice=”active” wd=”niwD”/> 

</grup.verb> 

<grup.prep Typecompl- ’locative > 

<s lem=”Gr” wd=”Gr”/> 

<n gen=T lem=”zagura” num=”s” postype=”proper” state=”free” 
wd=’zagura”/> 

</grup.prep> 

<grup.prep Typecompl- locative”> 

<s lem=”Gr” wd=”Gr”/> 
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<s lem=”xf” wd=”xf/> 

<n Typecompl- ’dative” gen=”m” lem-’amuddu” num="s” 
postype- common” state=’'construct” wd=”umuddu7> 

<d gen=”c” lem=”nns” num=”s” person=”3” postype-’possessive” 
wd=”nns’7> 

</grup.prep> 

<f punct= colon” wd=”:”/> 

</sentence> 

• + 

IKKO 

"LgA L all Tv 

IRKO :>j 

_ (J^alS AiJaj J* 

>V ii> ^ 7- Ly--.a (J ia± i^j 

<sentence> 

<grup.verb Typecompl- subjectiva!”> 

<v aspect=”perfective” gen=”c” lem=”kkr” num=”p” person=”1” 
voice=”active” wd=”nkkar7> 

</grup.verb> 

<grup.adv Typecompl=”free’> 

<ad lem zikk” postype-’time” wd= zikk 7> 

</grup.adv> 

<f punct=”comma‘ wd=”,7> 

* 4 

;LiA . ^ i ja <LcLaJt a 24 t “>‘i 

IEEH j* 

Ailiaj o©0£A: _>* 
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cW ( la representation informatique 

J L (JjJuul) 


: J jVl aI~J1 


0O +tHoll + oHO XH gllgAAS 110. 


A & y a jiA L atf ~ 

iL5 idill 5 Oo +£HoU+ jA j ;^QjuiVt 

( 8 ) ++oH© :J*£\ 

UJij aI^I) (XH oCSAAo IIO) >j 

.(oH©) 

Jl '-J& 1c. LuLa l) * ^ 4 Lp 


<sentence> 

<grup.nom Typecompl= subjectival”> 

<d lem=”ha” postype= ’’demonstrative wd=”ha '/> 

<n Typecompl- ’subjectival’ gen-T lem-’tifawt” num=”s” 
postype-’proper state-’free” wd=”tifawt”/> 

</grup.nom> 

<grup.verb Typecompl= subjectival”> 

<v aspect-’imperfective” gen=”f’ lem=”als” num-’s” person=”3” 
voice-’active wd=”ttals”/> 

</grup.verb> 

<grup.prep Typecompl="dative’> 


u ■' ’ 7 ^ ' ■ Iaa a •• ~~ ‘ ^ 4« ajij L-a (JjC- ^ /ji Lift ° 

.Vuj'u'il 4iL£U 

■in - 1 H 

(XML) ^LLuil <uJ Ancorapipe _>JI iJu. 

lA U* J * Ua^U Cj^jLs- giUi.il J a ir.U -I. “ «3 ilU j (J*j ‘ ati jj ^ ..V) lU _ 

,<>v 8 
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Grup.nom 

Nominal group 

Grup.prepo 

Prepositional group 

Grup.verb 

Verbal group 


Jjll ^1 j-allj <-lll j kVUJ I . Jj- 


j* (type complement) .11^- 

JllLujI j i * iN X *11 oliA jjj*j (jj ^Ic. t4_aJl*_aIl <LaaJ! 

.<3^ jjj 


Etiquette utilisee 

LgJ ^3aa 

adjectival 

^ Q - 

dative 

^LjaVI 

free 


locative 


nominal 

^auiVI 

objectival 

^a-LcJl 

prepositional 


subjectival 

j^i&uii jaji 

temporal 


verbal 



3jjI ^1! i** d 




y J 
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Etiquetage )^'_>^ j ^ull (+£Hol_l£l o +oCo>KC 1 t j +) ^ 

3 v* 

( )(Ancorapipe) (morphosyntaxique 


Hatter 

M C3 pi 1 

* &% • 

^ > ns tf ^ 

- '3 BMTuetZ 

Property Value 


i ditd,v3,jal 

D 

X pLC-tl'ay#rk2_AP,tbf , 1 frJ 
ji plCfrtf«*^JtfUbf .xrrl 
X piW*t#awrtf_AP,lbf->rrl 
X pl064fortfC_AP.lbf.wri 
£, pl2-t/awn2_AP-tW,i/i^ 
X pl&-tf**n2 JtfhtW.xntl 
X pl28-lf*rrtn2_AP.tbf.xnrJ 

X pl304fa^,AAlbf.xrrl 

X pM-tl<Jwn 2 .AP.tbf,xr(lJ 

X pH64fown2jP,lbExjri 

£ plffl't#*** JUMbf xrr J 

X JWMbExw. 

J pl54tfawW.WMbf.xrrJ 
X pl74tf*wWJ«Utf.XJrJ 

X p20tfawW_AP-tW >rrJ 


*i dereference 

trtJty TOT PRESENT 
tott$hGric[> no 
- FuXLkcra ijrtts. 


*<) 

hrt 

tem 

Typeternpl 

- Lm 

ongn 

- rtK 

MTW 

tcremw 


TOT PRESENT 
TOT PRESENT 
TOT PRESENT 


Wwedw*-- 


X ♦p|Otf*vW_tfMW 
id 


X PlQ?tfaw£_AP,tbf X* plM-t fawW.AP 


vr^-f : i adrenal comptemcrt 
tot*tf ■ dpt#*/ (c<npifdwH 
free • fr« ccfltpJemetf 
beat* Iwat# (MglMK 
■ iwftMi cornplww* 
tcrexwraw >NmN* " fitWlto! to rncfcmert 
othev - other conefcment 
preposfcicrul * Preposbcna) complement 
fubiectrvol - «ub>ectrv«l complement 
trrrporH ■ temper d complement 
verbal • vwW complement 
TOT PRESENT • RtOCw yw.bote 


content 

ha t/aw* tt<sk *f umudoj m* : 

rwj/jn j#it , nTlf abnd , nnO G/ »gtn Gr 1 egn nws , 

rmmiiii <** urtiiiJ n txstd . 

rmsaGarj . 

twos nr» r£Aj Gr Uvufin , 

i,rrinrTO ( isWdpr>GbdM<>yictntSOaRidTar(^art . 

nrva anG : $v« dags <to werndW . 

y#fcn&iy*Sr .ucaivkry : "haKJWn ndra dg ucfc amayru * " , 

dq liierwr u , n2fi-a asWi ‘ ya* ’ flan dg em nu , 

wiSihfliiAMMd'vi’iaftdQgmnviA. 

nZRa ’ y an ' Ian dg tm a urn yamna . 
a : egqa *liin a qqaRn ,*150 tf n»G ■ 

1 1 aS rgg^am . 


Sa n nrtS maafin iMylutn , Hlt%j 1/ in ttu 
ira dg id hi ft umnuy ft Until nrvG . 


Morphology 
04 ft 
run 
Syntax 
dsc id 


Al #tr lutes 


ierr*na Cements 



segmentation 


|| ' ■ Lu.lt^A j . 4 i-i i) 

) 

(J£i LiJAa. 


Ac, IjLuc .1 j 

(syntaxique 


(verbal ^jLc. C i'u_L 4 < illjj (. jlj£ . : Jl - 

‘(nominal group)(^“Vl ^_>^l ‘group) 
(prepositional iA ‘(adjectival group)t>^X' 

.( 5 )(adverbial group)^^' ‘rjSjjj ‘ group) 


1 


Abreviation 

Signification 

Grup.adverb 

Adverbial group 


(20 10 ) Ajaj J) 1 -* V 1 Aili (J ja. diLi jlx-all 

.10 L>^ ^511 ^ (+OoU^I o +ol=o^tV+) ^ JA A >L - 4 

^la ;: j 1 * JjJ ^ylil lIjIaa _ jll j 4 jlU 1 ^ ‘ 1 *1 ;<J a !1 dA^ Ajjj L 5 ^ £ JwbV^ • >a! 

( 2008 ) uj^j 
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- ZQOtUE I SCVoO t CSAI ZO ZOo oA A ZAAo oXHH£A ( ^ 

(L5 jLju) (iSLall (jL (Jiilill ) # 

- VoHI mLoA\ ZQ go A ZAAZ SGHIIoA L& <ji J <j^) 

Jl*&U A^uijail A jAjhH I JbuSf! j AJLlajil jlj-iSlt .3 

AJujLOU uL&t 


^5 1 ^LoJJjoit ( j£^J 4 jjLoiI]I dil^)LlaVt ^}-<c Ajj^L^c 

;_1 A-L&aSM l^jibj ^j-0 La^Uajl jj±Sj 4 a111 ^Luj 


^ a > >n Lu> (4_ut_n^ll (** )\ * W\ <_^-a 4 jl] {JLl3i C1j^La£-a ^LluJI - 

^ Kun/ C \1.Wj nr.1 i l‘* \l. W jj ^_Ic. ^LojIaII 

J ^'jA' i> 

Cj1^.j £-a La ^a*_a!I ^ j ^ ■» ^'1 d)l 

lIjI^Liuj < ^ JLxibU dj^Lo£^cil _ 

J! ^xin jUiVl (jjj jawjII AjijjuSfl 4*111 ^ ‘^-^jjj 

<_U^ ^-Sll JUiVlj (homonymie) j (polysemie) <i5ljH,yi 

.(195-186 : 1990 <jj^) (effet de sens) 


\ ^ y 4 jjj "v \\1 c_ll ^ A - 




vllojII 

v-/-*»* 


(JIasVLj AJaJJ_^dl 


Aj*jJLaSU uU&ll (j* 4 li>Uajl Aj&I^aI] ^ j;j ■ - 1 ^ ^ ujULuiaiM .4 

M 

" +*HoLia . +oCo»!?V+ " 


AjlI 4jV (_£ jJtUl Ajjoi AjjIAx] (JjuI aAcl ^Lxl\ pLull 

jiLo! 4_^JLat^a ^Ic- 1 ^3 L^j A jj^nia 

Ajt]l\ ^Uaj ^ic- (3^ La J£ l (J£oju -likJJ JlC- 

AjIa I^JiiaAI ^^Lil ^A LaJ L^aa 

LjtSSlI (3^ L ^ L^q a ( j^aj q-c la^-Ljl AJAjjLaSfl Ajtill cJLtil 1 ^ Ji^dj 
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- /oM© SCVoO C CCCOOol +CIH 80 CI +C>KoXKg+Cl( 

4 ,f|J ^ 1 . ^ 

Jic. Jjj JAaIIj j*V I t(le complement locatif)^^' 

i 4jIc 4^3 j 1 ^ ^ 


- CJKAV 8OX0* X +0AA0O+ II© (a 1 >l° ^ ) 

- /oV8H A XAA§ X KOolOo VO +Eo>KCO+ 110 ( J\ <> ^ j 

AliL). 

4 jaiu lU^ILi jaVl ‘(le complement tempore l)^'-- jit J^lt 

* tW \) j 4 _i 3 (j°j ^-I'^-^H (jtj (jjLfiVt >■»» * 


- CKRo I ©CHoU o©XX u o© X CCSAAS+I II© JiJ ^ jli^ ^5) 

- +eizcco +0V0O+ x +C0SK0+ coxx u 0 ©i M s^lii 

a^UJI (.L<uN'u jyN\ jLujj t(le complement nominalXr— Vt <_UUI 

(^ 4 -i<ajjiVt 4 XtaJU 4 -aJjall f-La^Vt ^ ^ * - »< j La ^ l^±k <_s^ 


- 0OX0/K AAV A oCo%CV jU li* ) 

- +o©RHo+ AAV A +oOCCo!+(^ j s 6 jk) 

cjU^L, j^\ (jkLj t(le complement adjectival)<^-ajll J-^lt 

<a mj La ^3 1^1^. ^jLi ^-ill (“UlSLiaII j tjjjc-Lfill $.Lajoil) AjxjjLaVt 

; jaj iA-La^VI ClaaJb *U&I ^ 


- C8X0 A oCROoJK^t ^>») 

- AMC A oCoKol I +E 0 CH+ (%ill ) 

jjifl (_^a (jLtiSf Lillj ji Lulj ^)La£-a ^Lj ^jll j-oaJLl J&\ (jLtljj ^ t U (J £ «\l 

;Ul^l Clia^t ^ La£ (VoH) (©©CUE) (CIC) 

- Clio o© ©o©©§ C C0X0 ©ol XAAo CAAo A ( aa ul JS 

j-?-) 


(X) lA3jiLj (Jaa. Lg_lV l^JaJ tjJxAil ^Ua] ^3 ' ^ AjajluVI (J 

( 367 - 366 : 1996 ) ujj jj ^ 3 ^] ji 
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V <-£L£a 1I t(les complements libres)*^' <->X£a11 . 
uj j Jj 'Ij vjj^' L ^ <-M* 

.(158:2009^1) 

Juj ^ AlLZJ/ tJLLai .2.2 


i> s^Ua j^c. J£ ja (1977)(Jij] ^ (Complement)A^-d' 

£>l-ba}i AAC* Jl (jLxiVt (jfA )A& t>Q *V £^ 0 juiJ (_£All (JSjuJI ^Jc- (JUtiVI 

J^Lk <l_ijt£*a tLuLa^ iLa£-a ^Ll^J (JIjlSVI V 1 


o* 


U-flljjL^al A * i <J*a1 AA^» A-uLoISM A + \\\ (JLlsI <Jl£La£^a ^ lIjLiIxlxJ A <mL»' 


*^Jj La 4 j* j J)La V \ AjlIII ^)^Ja-aJJ (.JjLaSt dl^La^a 


(Jsl9 Ajlj 4jj£a *k l u I JS jAj t(le complement subjectival)^^' Ja^JI - 

4a ij^LaVI AjlIII dj^La£^al1 ^ya l au^ll | A& 4 ^jujVI <3*-^ c^Ua ALjAIujI^ 

4 IajLj^ ^jIj l^-jLAa^Jt^a^ ^LojuiSM 

-XoOS oGHEoA +o©Oo+(^j ^Vl M&) 

- ++/oOS +0Oo+ (AlU >11 cia*) 

j^.b J£ jAj t(le complement objectivalXA?*^' - 

‘_9^j l jjoiLaII (_)_j*Aa]1 AajJaII e-LajSn ^3 aIajaaII 

-IQWo ZOXoX +Z<DZ OZ+ 

- Z+Co SO©o ZQWLo\ (AaxJI AJ\ JSI) 

A.L JS jAj ^(le complement prepositionnel)^ <_U^1' - 

A 1 .'* (j* A j.*> >j\\I ^JC AjxLolt 4-ojJiall g.LabVI (_yS aIajuiaII ^ 

^uii cjLss ^ is (x)j (gskk) 

-ZOZKK oGHCoA XH ZOZOoU I CIHCoAl fc^l uiJ^ £^>) 

- ZXo O G CSAo Z CZLCZQ GSHolJ (jU?-. Ail ^) 

jl ^1511 JAaILj jaSm ‘(le complement datif)^'-^V' Ja£AI - 

;_^aj i jjjUll j f-LlaaJl j (J ^JLxfiV Axj ^ jll ljIIjII 

-CMo SAOOCC + 0 IUU 0 C+ Z +CAA 0 KH+ II G (<A^d ^ jjll *-^l ^') 

- /§RO §CXXoO CAOCD ^ oGQQoQ ( t5>-) 
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1- S+Co CSXo oKOSCtH 11 

1.1- t+Co o+ LZAo(<^j* AKi) 

2- CHo SOHCoA +o©CV§0+ t 8IHCoA(ijSU. J-ct) 

2 . 1 - CHo o© +o©Di , SO+ (SJ5L?* *Uflc.1 ) 

3 - +AAo +IHCoA+ VO 

3.1- +AAo +IHC 0 A+ 


31^1 ^^aUc. jjj (jjjijlt ajUc- (1’ elimination) - 

^3 v n-kVi* A \ Vi ^ \ 1 1 a '\a\ L«^ Lei (j -0 4 jl±)J V (3*4! ^ tT! (_y4l 

jLalic-l (3*->l j_jLi ah Lja_$ j aA^lm •Ic.LluJ 

4_iLi*JI 3*_i ' ^ 4! ^ *» tALoaJi 4j^a_i ^^ic. L-SjjlSI] 

(j) tiillj ^jic. JHq£j j4l (JJj£41 

jjc. 4lta. 4 jj 4iia.j ()K>K|>K) 4 _luu11j bjjjiJa jjj»j (5) j (4) 

C5^=- u) (AAo) <J*41 m^uuIIj bjUi-lj Ija£jj 

Lil'Vjl 9 LmS \j A^l^ul*3 aLo^JI 

• ** V ***!■ *■ + 


4- xm<>l ^COAoOOo/l + 0 CoJK*0+(s4J1 

4.1- XKIXol t£Q ASOOS/I ?(ujj^*^' 

5- *AAo CUo VO +Co>KO+(s4JI J! M^) 
5.1 CAAo CoXo((j-^J J<1 < -r*A-^) 


LiL-tfal^j IajLxjILujI^ Ia j< ** AjjjLi c^lljA La^/Qajlj 

AjjjUllj AjjUa.yi Cl5Lo£-a]l qu (Jiij (jjii .(_£ jUiLVI Aj^aSlI lillj ^ (jilli jl 

.ejaJtj 


l-lJULaII ^ j ^(les complements obligatoires)^jWV' <^-<£4' - 

j Ixu^jj ^ "v J "'v v ^ ^jjc. 4_La^JI ' ‘ “ ^ La I jli la 4-a.j LS^~ (3*4! ' £ J* '°J 

'ur^ 


V cl51Aa 1! ^ j i(les complements facul tati fs)^ I cj^LAaII - 

aLo^JI L * La liU c jLlkVI tg 

LiliS U 4 -v v-v . ^ 
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(j* -ll Jc. (J-WiM (jiialalt ^DU-ail 

2-aJ jj i^JaUll (jjflil ^lujlui U AHjJjtf' 

La 4 j>1=l O^'T' dh£=dJ' c> 

<J*j) ^ ^UlSM eUj^l <J».h jjjj theorie de dependance 

V <_M L_Lui^i tJUibd jjli <_ulj?Jl (^ic. j £ jj ^ ^Uaiuil (Engel) 

l^C-l ^j| tillj ^£..}| Lo£ ‘ L>a» I - 'N ■S. *11 .lie. 4jJ^Li_all -HaJi 

A_Lu£^)J -( A_mll 0^ dlLa^Lua ^JaJLJ (JitaH ^ ^ 

JsLall C5^ 4 -Ll^JI 


lHjLx-111 ^9 (JLlsSH C1i^La£-A L> W A-ijLud] lIjIjLaC. lLi^Lj ^Jc. \a\cl j 

I^JI^lLuiI (jl^j 4i A j-^ 5 (illjj (la substitution) 

La JaIaIS ijjLud! (jaaj U J^ij 

1 - SOHCoA XH U 0 OO 0 +I II© (aa 5S Je. ^1 ) 

2-COO© 0 OMC 0 A 0 V 0 IC© XH U 0 OO 0 +I II© (^ Jc. <jai ^ j) 

(XH) *-i jail JlAjiuil <_^t <jL tj jj (2) J ( 1 ) <laaJl (jjj CjjlLall j!>La. (Ja 

Jc.j 4 U*Jl e^J AK JOLA LI j^sUxll jjj*j Jj£ J (jl (jj^ d£^ JJC. 

il ^>1 4x- <— i^^Jl (J^±LbJiJ O' J < 0-^ 

U^Jl aKAaII >^U*11 (AAoU) J (oHHHo)m (XH) l!^ J u^J 

•(2) 

O^jj ^Lal Ljii a^jLuJI J ^ (JIjllLjj'VI ^ ^ ^ r - Lil diujl ^1 

Ajt-iiLaJI A_l^.Ij 0-° 0.,^'“^ ^ ^ plj^V^j (JljLfiSfl O -0 

L M Vj t -Luij (l’anaphoraisation) - 

4 <jjLiVI nh j > n j jju^ak- jUJ ^a 

^ajolJ La £l1jL^LujVI_ 9 ^pLfijJa5l ^A ^ QJ L ^Jl ^11 Aj^Jtlil dll^^ 

Ajl±iL L-fl^U^.1 ^ ^ AjjLJuVIj Aj^LAjJall djLja^uoJ) L_illikJj ^diLja jji-aILi 

;^t AJiin ^a (3.1)j (2.1) 4(1.1) lM' u^ ^ lU^I' 


(1969) i " d .ft LI t> - 
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^jx ^ j\W AjlUU aLu^II AJLujII (AjVL^xII ^jx Ax, A (Aj^xjILxI Ai]^ 

.4 \y^Sj\ djUUl (JjoJjAi (Jl^X J dj'Jtl] A_JV l A^ILlaII (Jl^A 1 ^-XaI 


<^juj^)Aa1I L_jLj£JI ^9 (JLjiOU Ajj^I^x ;_1 Ajjjxx]! aI^IAx]! 

jllvi U jl^l J\ »’+OoU(l o +oCo*C l T l + H 

iA-JujlxVl Aiili j (Jl^-x ^9 A^SIjlaII bill] ^ J>\jS)l\ J (JluV 

^^jxjAaJI L_jIj£JI (Jjx Ls^LLajI 

i^-Sj Ixx ^ ^xll Aj^lix 

££.}Laa]1 ^a! ^jC- A_i9 lLjA^jIiaj 4^-^LiaIIj JjAaJi i^Jatjj (J*-a]i AAi^L^a \ 

$LgJ <LiLudll AAO^aII CIjI jLLaVLs Aj^jLSx <Jjul Ajj^I^a I^aIc* 

c-jUSll ^ juibu ^UxJt Ajxj U l U J AjLt^l! jl^Vl .2 

AALila^Sl 4 elAjuA£jtjVl A_i5 ^LuaLxj 4 AbtjJjlxbU ^ju^jAxli 

SAALj^IaSH AJlUI (JL^a ^-3 (JIiLxLljI) Ajj^a 4 ^ A\ AxlVI A^HjlaII 

AALjJ)txbll ( ^-uj^)Aa]1 ljUSII Jx l^^LLbl 4 \“\^\ na'1 Axj^jujL^JI (JbL^nlnjll 3 

M +0£oLKI o +oCo^ 1 t i + h 


jLSU 


^jx .^^ix ^jx^)Aa j^jx 


1«X ^ Lu^JULlL^ £l]L*X (j* dj'- 


^XjX 


cb? jlLVi jlXftU A-iiiai ^1] "+SH 0 LKI O +<»□«,* 

.(1977) 


tjijj Ax Jxftll 4j£h-» .2 


jaj ^ <j-aU. toj^aUxll ajjIAII xlAvi ^ (la valence) b^-4' 6^ 
5 — «.L^Vt t> lP^j ‘la grammaire de dependence 
amj 1\ diliib. g-jill *iiij ^ Les grammaires fonctionnelles 

^jAl ^l5) 4^LlX (JiL&ltS 4 AIa^JI ^)A-ialjC. <^JX ^jAxaic. ^LlJOlVI 

Ajlx < aIjIj 

^2ll Sj-iS3l bllj iLbajI 4Abl^xll lx^ ^(^359 11996^0^^)^^) 


J 




Lb^lbLLl Ic, jjj 1 4 aV\^ 44 JL^x 


JxLi ijjlab Jjx-a^Sl jA jiil j] 

li£j 44 uxIj^ 3I AiS dililll ^jx 4 Jl 1 AjI ^9 ^jxi jl 4(Jx9 t ^ j l >>"qj ^Jlll 

(Jjl 9 (JSJ 4 oh A A\ CljUl£xVi A^A^J 
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^ UiSU 4 jpJ 

"+*HoLI*l O +ol=o>K£ l T J +" 

A i a J)jui J 

«* «* * V 


lii jus 

jud\ Jabjl! <AjijjUVl AiliH! ^11 

aqua@ircam.ma 


A-ijlj )LoV^ 4JJ1I 4 \ pi s . .» 4_iui ^ 2 ^. p jjAa! jjl ^ \ 4_LlIaa1! <. i 

jU^yi ^pLvb (+SH 0 LKI o toCo^m) M usii t> unkji 

4 U 'ij) 11 ' j'ji' “b'jj c> *b} .(Engel) J*->! Ac.L_^ 

1 _ Aj£ll Cj jikalt jUI J Aja . ^ju jLsVl (jl*Al A-ll^l A -»■ tl » a\I (JLa^a A-UjLa_a]l 

(Jijl ^LaJI ^jOa^U 4 j1jll3| i ^3 aA^IAaJI diSpiaJ 4 j1c> A^.jA ^juipAxill 

pLu j (jL^a I^jI jujlSjt jl ^aV axj djpLujl j ^ill AjjLuaIII p^Lpall j 

Pj-c (. 4 Ul a a ^jbw l*i p )a 4jj^)La^4 Ajjui ija. >r ^ ijh&J 4^xIAaII d^Llj (CAxlll 

.^su ji^ juaImiU M2i 5_Lu.li (+?HoU? 1 o +oCo>k?: i t j +) 


<LaSLa # 1 


J] ^U1 Jjjill l < 1 1 A ( pa *by 5^£ jiii cLUjVi ^ J^uii jjkai <_$J jsi 

< ^lcr ^LalC^VLl 4 j» dllilll ^lSLslS ^h\ ApliL^jli CjLaL^-sV^ Ppa 4^ jjxi'N .a 

1 a j i^Alla-ill 4 jj1^aq| 1 ^i 4-JaLuuII § 4iL^il A q a& ( p£jLpJl pp& A^j^a*\a 

la valence ) lWI U 4^131 ^ ^lUill 

aju 4 j^JIjlui 1 ^jLulVI d AA i> ^balkil pit AjiLu.Ul oULabVl jjj t> (du verbe 

4 _ix_ll 1 a 1 I cIAjlUI IjLJo^ Pj-a 

♦ v" »•* v W 


^)Llaj ^dA (Jjljli 4 j ^ V il "v a ,| 
43^ § 4 X l^_l3 ^ill CiLaUuJ) 4-j >; ^1'. I^Laluj f 

UlV^ LiuS \3 

» »• »• » »• w' 


■lit ciua. (jd JUiVi A^a. p diauj pv^j 
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Abstract 

There has been a significant amount of research in various aspects of writing based 
user interfaces including interactive design tools, studies of gestures, software 
toolkits, ink beautification, and sketch recognition. In this paper, we shall focus on 
the recognition of handwritten characters that are used in common applications. 

Different people may use different stroke-order, number, and direction to draw the 
same shape of any character. In fact, handwritten characters are imprecise in nature 
such that comers are not always sharp, lines are not perfectly straight, and curves 
are not necessarily smooth. A robust recognition system has to account for all of 
these factors. In this paper, we shall consider a statistical approach to Handwritten 
Character Recognition using Legendre moments as features. These features will be 
the input of character classification algorithms based on nearest neighbor criteria 
(NN) (Khotanzad, A. and Hong) and hidden neural network. 

Experimentation has been performed on a local database of characters. 
Experimental results show the robustness of the approach. 


Keywords: Character recognition, T ifinaghe characters, Invariant moments, Neural 
network 

R6sum6 

Nous presentons dans ce manuscrit une methods de reconnaissance de caracteres 
amazighs manuscrits isoles, basee sur les moments invariants. 

La base de donnees constitute est composee d’ images de 1‘alphabet Tifinaghe 
Merits par 28 scripteurs pour un total de 924 images de taille normalisde 
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100x100, Elle est divisee en une base d’apprentissage de 726 caracteres et une 
base de test de 198 caracteres. 

Des algorithmes d’extraction d’attributs appropri6s & base de la mdthode des 
moments serviront & alimenter les classifieurs utilises : la distance minim ale, les 
plus proches voisins, et les reseaux des neurones. 

Les resultats experimentaux dressent une etude comparative entre les differents 
algorithmes en termes de taux de reconnaissance 

Mots cl£s : reconnaissance de caracteres, caracteres Tifinaghe, Moments invariants, 
Reseaux de neurones 

1 -Introduction 

Character Recognition is a part of Pattern Recognition, It’s the research area that 
studies the operation and design of systems that recognize patterns in data. It 
encloses sub disciplines like discriminate analysis, feature extraction, error 
estimation, cluster analysis (also called statistical pattern recognition), grammatical 
inference and parsing. Important application areas are image analysis, character 
recognition, speech analysis, man and machine diagnostics, person identification 
and industrial inspection. 

Handwriting is a simple and natural mode of expression. It is especially desirable 
for conceptual design, both on an Individual basis and in a collaborative 
environment. It is used in a significant amount of research to date in various 
aspects of sketch-based user interfaces: Interactive design tools, studies of gestures, 
software toolkits, ink beautification, and sketch recognition. The work in off-line 
character recognition can be roughly categorized into statistical, structural, and 
rule-based approaches. 

In this paper, we consider a statistical approach to Tifinaghe handwritten characters 
recognition using Legendre moments as features. In fact, Legendre moments are a 
class of orthogonal moments and have been shown effective in terms of image 
representation. 

Legendre moments can be easily constructed to an arbitrary order. Although higher 
order moments carry more fine details of an image, they are also more susceptible 
to noise. 

Therefore we have experimented with different orders of Legendre moments to 
determine the optimal order for our problem, for this, we introduce the Maximum 
Entropy Principle (MEP) as a selection criterion (C.-H. Tech and R.T. Chin, 1988) 
that extracts optimal character features. 

The main goal is to reduce the input dimensionality of the classification problem 
by eliminating features with low information content or high redundancy with 
respect to other features. 
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The second step (recognition) is achieved by using minimum mean distance, 
multilayer hidden neural network and nearest neighbor as classifier, where finite 
vectors obtained in the preprocessing phase are used as inputs. Experimental results 
are obtained using a collected database of handwritten Amazigh characters. 

2-Database construction 

Since there is no publicly available handwritten database of Tifinaghe characters, 
we have created a test corpus by gathering data from different and independent 
people, referring to The alphabet Tifinaghe adopted by IRCAM,( L. 
Zenkouar,2004,2008) which is composed of thirty-three characters representing 
consonants and vowels as shown in Figure 1 . 



Figure 8 : the characters set representing 
the Amazigh alphabet adopted by IRC AM 

So far, we have gathered data from 28 users. Each user was asked to write one 
example for each of The 33 characters of Tifinaghe alphabet shown in Figure 1, die 
resulting dataset contains a total of 28 users overall and 924 characters. 


Our database is composed of isolated character images of Tifinaghe alphabet, 
gathered from 28 users, to obtain 924 character ima ges 

The database has the following properties: 

♦♦♦ gray level Images coded with 8 bytes 
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❖ All images have 100 X 100 size 

❖ Training and test databases are written by different users, it’s divided on 
training database containing 726 characters, and test database containing 
198 characters 

Indeed, our database contain 924 gray level character images, 


3- Features extraction 

In order to design a good character recognition system, the choice of feature 
extractor is very 

crucial. In fact, the feature vectors should contain die most pertinent information 
about the character to be recognized while having a low dimensionality 

In the statistics-based feature extraction approaches, global information is used to 
create a set of feature vector elements to perform recognition. The low-dimensional 
feature vector reduces the computational burden of the recognition system; 
however, if the choice of the feature elements is not properly made, this in turn 
may affect the classification performance. 

Also, as the number of feature elements in the feature extraction step decreases, the 
neural network classifier becomes small with a simple structure. 

Statistics-based approaches for feature extraction are very important in pattern 
recognition for their computational efficiency and their use of global information in 
an image for extracting features (J. Haddadnia and al, 2001). Especially, the 
advantages of considering orthogonal moments are that they are shift, and scale 
invariants and are very robust in the presence of noise. The invariant properties of 
moments are utilized as pattern sensitive features in classification and recognition 
applications (C. H. Teh and R. T. Chin, 1988; S. O. Belkasim and al 1991). 

Statistical moments represent average values of processes (powered to order n) 
when a 

random variable is involved. Here, the original and pre-processed images were 
considered as 

two dimensional arrays of a random variable of dimension N*N. The random 
variables took values from level 0 to 255, as the images were considered in gray 
levels quantized in 8 bits 

(Gray levels were obtained from BMP format). Moments were calculated for the 
random variable X, which was identified with the image block. In addition, X is a 
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matrix of two coordinates (x,y) obtained from the image matrix f[x,y). The 
definition of (p+q) order invariant moment around the origin is given by: 

The Legendre moments of order (p + q) are defined for a given real image 
intensity function f(x, y) as 

A P , q = ^ 2p+1 ^ 2q + 1 ^ l J P P (x)P q (y)f{x,y)dxdy, 

^ RR 

Where /(jc,y)is assumed to have bounded support 

The Legendre polynomials P p {xjare a complete orthogonal basis set on the 
interval [- lj) for an order p they are defined as 



1 d p 


2 P p\ dx p 



The orthogonality property is guaranteed by the equality 


I p p (xyp q (x)dx 


2 

(2 p + 1) 



Where o is the Kronecker function, that is, 



if P = Q 
otherwise 


3-1 -Image reconstruction by Legendre moments 

By taking the orthogonality principle into consideration, the image function 
f(x,y) can be written as an infinite series expansion in terms of Legendre 

polynomials over the square [— l^?]x [— 1J _\ : 
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oa oo 

f<X.y)= ^ ^ A p,q P p (x)P q ( y ) ’ 

p — 0 CJ — 0 

Where the Legendre moments are computed over the same square 

If only Legendre moments of order smaller than or equal to 0 are given, then the 
function f{x,y ) can be approximated by a continuous function which is a 

truncated series: 

£ p 

fe (x, y) = ^ ^ A-p-qPp-q (x)Pq (y). 

p = 0 £7=0 

Furthermore, A J must be replaced by their numerical approximation which will 

be pointed out on the following section. The number of moments used in the 
reconstruction of image for a given 9 is defined by 

„ _ {6 + i)(fl + 2) 

rota! — ^ 


3-2-Approximation of the Legendre moments 


In practice the Legendre moments have to be computed from sampled data, that is, 
the rectangular sampling of the original image function /(jc,y), producing the set 

of samples f\X i >y j) with an ( M ,N ) array of pixels, thus we define the discrete 

version of A in terms of summation by the traditional commonly used formula 

r 

(C.-H. Tech and R.T. Chin, 1988): 


A v>$ 


(2 p + 1)(2 q + 

4 


M N 

X f V 1 T 

— 2j -Pp (*i)Pq (>; )/( * j- V; )AxAy 

i= i ; = i 


Where Ax = (x i -x i _ ] ) and Ay -\y j-y H ) are sampling intervals in the x and y 
directions. 


It is clear, however, that X is not a very accurate approximation ofX p/I9 in 
particular, when the moment order (p + q) increases 

The piecewise constant approximation of /(jc,y)proposed recently by Liao and 
Pawlak 


(S. X. Liao, 1996; S. X. Liao, 1993), yields the following approximation ofX : 

r rf 
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M N 

^V.q — ^ / Hpjq(. x i’ >j )/(^.yj )■ 
>= 1 J=> 


Witti r^pposihan that f\X,yj 


is piecewise ssxastaat ov«r the mfcssry&i 


[* f -fe, +M*\?< - 4 y,j y + 4 ?J 


And where 


(2p + 1)(2 q + 1) f 1 2 f*T 2 


i 2 - J 2 


P p \[x)P q iy'idxdy 


represents fe iiitegratioE of die pclysmiMal P (jcjP (v ) around the 
pixel . 



Th/s allows a good quality of reconstructed images by reducing tfe.* 

reccMtroction error. 


4 -Lcfiming arid d&ggiffciii&ii 

Ttee different classification tedbniqecs h&ve been ssv&hiatEd: die tritiimsim mean 
distance (MMD), tbc nearest neighbor (NN) (Khssisnsad, A. andEc&g), and hidden 
tswiM aebrctifc The clasriileci lram from the training set m wM«h every example 
Is represented wift a nmlti- dmra -i flioml feature vector campe^d of extracted 
I^gpadre moments. 

4-1-Mfaimam Mmm B&mm (MMD) 

In the minmnam distance classifier, each character class, Ck, is represgnted witih the 
sample means, /a, learned ftroii the teaming examples. When a new example is 
given, it is compared to each character class by calculating the Endidean distance. 
The entanp le is assigned to class k for winch the distance is minimum. 

The teaming ©wsipik of class k, ck, with the smallest distance to the test enanple, 
a, is the nearest jadghboar ctf a, the equations are shewn bdtw: 
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d(a,c k ) = ^(a t -c k ) 2 

>=i 


4-2-Nearest Neighbour (NN) 

During tr aining , the nearest neighbour classifier uses the feature vectors of the 
samples in the training set using the corresponding moments. In the classification 
stage, the classifier extracts features from the test example and computes the 
Euclidean distance, d, between the example and every training example. 

The test example is classified to the class receiving the ma ximum number of votes. 
The training data is scaled to be in the range of [0, 1] in order to avoid numerical 
problems. Tbe test data is also scaled according to the parameters obtained during 
the training stage 


4-3 -Neural Network 

Neural network is widely used as a classifier in many recognition systems. Neural 
networks have been employed and compared to conventional classifiers for a 
number of classification problems. The results have shown that the accuracy of the 
neural network approaches is equivalent to, or slightly better than, other methods. 
Also, due to the simplicity, generality, and good learning ability of the neural 
networks, these types of classifiers are found to be more efficient (W. Zhou, 1999) 
Therefore, neural networks are an excellent candidate for pattern classification (J. 
Haddadnia, and al, 2002), where attempts have been carried out to mak e the 
learning process in this type of classification faster than normally required for the 
multilayer neural networks (W. Zhou, 1999) 

In this paper, a neural network is used as a classifier in character recognition where 
the inputs to the neural network are feature vectors derived from the proposed 
feature extraction technique described in the previous section (H. El fadili, 2006) 

The output of each node is a pondered sum of its inputs: 

/ n > 

o,=m)=dXte) 

\k=J J 


£ th 

with L, k the k composant of sample vector. 

W a is the weight of the connection which rely unit k and unit i. 
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a- Is the activation of the unit L 


<P is die activation function of tins ui 
following oqnmeion : 


itii-. 


which is a threshold fimetsen with the 



St Xh0 

si x£@ 



Figure 2: Shs^ile Perceptmt 


S-Ezpcrimentatioii 

We have designed two sets of oxpminfsnte based on these two mage scenarios to 
evaluate the recognition system 

In Ibis experiment we are interested in de 4 *mMsig how well the pm-troined 
recognizer wesks for a new n untki different classification methods. Each ti me, 
a. different individual's data set is held out for a test set, and a. classifier is trained 
with all cths- users* date sod than test on the holdout set For each round, there me 
726 characters foe trshmig, and 198 characters for testing. 


MMD (%) 

Newest Neighbour {%\ 

Neural Network (%) 

61 

24 

9 
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Table 1: comparison of error rate for the test set of the three used classification 

methods 


Table 1 shows the classifier error rate of three approaches, the classifier error rate 
(%) is considered as the number of misclassifications in the training (test) phase 
over the total number of tr aining (test) images. 

From Table 1 we can see that neural network method wit, hidden layers (only two 
hidden layer) and hidden nodes can easily provide excellent results in terms of test 
error 



0 200 400 600 800 1000 1200 1400 1600 1800 2000 


Figure 3: recognition rate of training set of the same architecture 

and two different samples 

The recognition converges faster when a the number of iterations is great, due to 
the very small number of tr aining examples 

We believe it is because there is a great level of consistency in how a user draws 
shape (character). Of course, the more examples, the better is to train the 
recognizer 

6-Conclusion 

In this paper an efficient feature extraction technique is developed, based on the 
orthogonal moments using Invariant Legendre moments. We have focused on the 
discrimination power of Legendre moments and have shown that the proposed 
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Legendre moment extraction method with hidden neural network classifier is 

tolerant to shape distortion, while showing improved performances in terms of 

recognition rate and generalization ability. 
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R£sum£ 

Nous presentons dans ce papier un systeme automatique de reconnaissance de 
l’ecriture amazighe a base de ligne centrale de l’ecriture. Apres des pretraitements 
sur l’image, le texte est segmente en lignes et puis en carac teres. Les positions des 
lignes de base du caractere sont utilisees pour obtenir un ensemble de 
caracteristiques independantes et dependantes a ces lignes. Ces caracteristiques 
sont liees aux densites de pixels et sont extraites sur les images binaires des 
caractdres en se basant sur l’utilisation de la technique des fenetres glissantes. Ces 
primitives alimenteront un r6seau de neurones multicouches dans les phases 
d’apprentissage et de reco nnai ssance, Le systdme a montrd de bonnes 
performances sur une base de 19437 modules amazighes. 

Mots clefs : Reconnaissance d’ecriture, Caracteres amazighs, Ligne de base, 
Segmentation, Perceptron multicouches. 

1. Introduction 

La reconnaissance automatique de l’ecriture manuscrite ou imprimee reste encore 
un sujet de recherche et d’exp6rimentation. Le probldme n’est pas encore 
entidrement rdsolu bien que les rdsultats atteignent des taux assez dlevds dans 
certaines applications et pour certaines langues. Plusieurs recherches scientifiques 
ont ete effectuees sur l’ecriture latine, arabe, et autres, ce qui a permis le 
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developpement de plusieurs approches de reconnaissance automatique de ces 
ecritures. Par contre, l’ecriture amazighe, appelee Tifinaghe, est ties peu tiaitee. 
Quelques tentatives ont ete menees pour ameliorer la situation actuelle. Elies sont 
regroupees generalement en grandes classes telles que les approches statistiques 
(Oulamara, 1988), (Djematen et al., 1997), Les rdseaux de neurones (Ait 
Ouguengay, 2008), (Elyachi et al., 2009), (Bouikhalene et al., 2009), l’approche 
syntaxique (Es Saady et al., 2008), (Es Saady et al., 2010) et les Modules de 
Markov cach6s (Amrouch et al., 2009), (Amrouch et al., 2010). Dans ce cadre, 
nous avons r6alis6 un syst£me automatique de reconnaissance de caracteres 
amazighes imprimis isotes, bas6 sin une approche syntaxique utilisant les 
automates finis. Sur une base de donnees de caracteres amazighes imprimes 
segmentes isoles, des resultats encourageants ont ete obtenus sur la majorite des 
caracteres. La limite de cette approche est qu’elle n’est pas applicable pour les 
caracteres non segmentes. Et pour remedier & ces limites, on propose une nouvelle 
approche qui tient compte de tous les caracteres amazighes. 

En effet, dans la phase d’extraction des primitives, notre approche est basde sur la 
position de la ligne de base d’ecriture. Ces primitives alimenteront un reseau de 
neurones multicouches dans les phases d’apprentissage et de reconnaissance. 

Pour les ecritures des autres langues, differentes approches basees sur les positions 
des lignes d’6criture ont 6t6 proposes dans la litt^rature. Pour l’6criture latine et 
arabe, plusieurs positions de lignes on 6t6 utilis6es pour extraire des 
caract6ristiques qui dependent de ces lignes (Elhajj et al., 2005), (AL-Shatnawi and 
Khairuddin, 2008), (Aida-zade and Hasanov, 2009), (Razzak et al., 2010). La 
figure 1 illustre des exemples de lignes utilis6es pour les caracteres latins et les 
caracteres arabes (Elhajj et al., 2005). Dans le cas de l’£criture amazighe, on 
propose d’utiliser une ligne centrale, ligne superieure et inferieure de l’ecriture 
pour deriver un ensemble de caracteristiques independantes et dependantes a ces 
lignes. Ces caracteristiques sont de types statistiques extraits au niveau pixels en se 
basant sur l’utilisation de la technique des fenetres glissantes. 
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Figure 1 : Example de Ijgaes de base d’krmre. (a) cox da Vteriture latum, (b) cos 

tit Vi&iture arabe. 


L’^rdsiteciucre gfofe&le de ncte syst&ne de recotmaksaace de caract&res 
amaaig hs se prdsemtera dans la figure 2 d-dcMoua. 


m OH (All SXtC.Ol J «EH«0 .kCC.O 
m, U SVfSH J XU J! H.AcK I £V0[ IV 
MH-I U.AAJtl tC-E.El K +t„X*Q+ I CCflU, 
+SSE.H A irAOsO iCECOJ 

1 

Acquisition 

Pretraitements 

Segmentation en lignes et en caracteres 

Extraction des caracteristiques dependantes 
et independ antes de la ligne d0 b3S0 


Reconnaissance 




Apprentissage 




Classification 
Decision 

Figure 2 : Schema simplifie du systems de reconnaissance proposd. 


Dans la scctken 2, sous ppfeaesfcas les pcindpsk* caractddjtiquea de r&aiture 
sms&ghe. Le troisilmss section est consaenle I la presentation des Stapes 
pr&reritements effbctu&s dang le syst&ne. Ecsdte, nous pr£senferons dans 
section 4 ks c ar wrt&M ti qoeg essreites en utilissnt k technique des feadtre# 
verticales giksantes et les diJSffireaates lignes de base. Les flsnltak espdrinifsntaux 
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wesxmt at commmit&s dans la section 5. Finai@iH@xii, mm ooradusirai aims 

qm des po^pdivei Mores mm pr^stmt&as dam la action 6* 

2. Ecritvre Amzlghe 

Le Tfikaghe est le syst&ue d'6criture de la tongue a mazi ghe. H lire ion origme du 
vieil alphabet Iftyque et tahasien* d£j£ utilise depids le Vr^ slide avaan T&re 
chr£tkm@ par les populations de l’Afrique du Need, da Sahd et des Ilea Canaries. 
Get alphabet a suM des modific&iiOM et des variations depute son origiae jnsqu’ft. 
nos jours. 


«9’®oOQ00Cll!SAEIl 

i 1 , x z n ii : i i t i t e u n ni r - 

Figure 3 .‘Alphabet Ttfinaghe IRCAM. 


La figure 3 ci-dessus pnteente leg dif&eats motides de 1’ alphabet amazighe 
(TMaagSie-IRCAM). 0 eemporte treat® trote Lefties. A k diff&ence des caract&es 
lattes et arabes, r&riture am&zlghe n'est jamais cursive, ce qui fadlitft touts 
opiratiaiL de segmecktiocL La majorM des modules grapbiques des cscect£ces est 
compodb de points, de petik eerefes, etfau de segments. De plus, l’icdture 
amaz^g hs eat 6crite de gauche I droite, die utilise des signea de pooctuatioa 
dassique accepts en alphabet ktm. La figure 4 d-dessous presents he example du 
teste amazigh d sm tm maaud acoteire. 


( n A qcav ■kuu.q j 

SCAXo+l : 

1. +dYoE+ *13. V3O0 +o0K*U*) + 30A*A*I. 

2- HHut OEH*AII **XO„OI X *EM U G „| B QI a O. 

3. tm 0 f al 3Y/gH qJTKiKJI X BXsAo* I CVOC IIV. 

4- HH.it Ue A AoXI CZSEaEI X fC a »:£0+ I CC£ll_l*. 

5- +S0E,M, A e AQ 0 Q sEEEQ^t, 


Figure 4: Example du texte Amtsdgke dans un nxmuel scokdre. 
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3. Pretraitements 

Cette etape prepare l'image d’entree afin de faciliter l’etape d ! extraction des 
caracteristiques. II s'agit essentiellement de reduire le bruit superpose aux textes et 
essayer de ne garder que l’information significative de la forme representee. Une 
fois l’image est numerisee, une serie de pretraitements est appliquee. Nous avons 
utilise le seuillage, la reduction du bruit, la segmentation en lignes puis en 
carac teres, et enfin la normalisation en taille. 

La separation Avant/Arriere plan est realisee avec une binarisation. H s’agit de 
passer d’une image en niveau de gris ou en couleur a une image bitonale (noir et 
blanc) en se basant sur un seuil global. Nous avons utilise la methode d’Otsu pour 
la binarisation (Otsu, 1979). La figure 5 ci-dessous presente le r^sultat de 
binarisation obtenu avec la methode d’Otsu. Cette methode effectue une analyse 
statistique sur les histogrammes (variance intra-classe et variance inter-classe) pour 
definir une fonction & maximiser qui permette d'estimer le seuil. 

HHol (XHCAII aXOoOl X oEHo0 0 loCC«© 

(HHo U ™ 0 m.H X SXoAoJtS I WOL ll^ 1 
HHol UoAAoXI mioB X fEo!K(0+ I CCClUo 
+§©E«H A pAOpO pCEEOpI 

Figure 5: Binarisation avec la methode d'Otsu. 

Pour la reduction de bruit qui consiste 4 ddtecter et d glimmer les pixels qui 
represented des bruits. Plusieurs methodes ont 6t6 uti1is6es pour eiiminer le bruit. 
Nous avons utilise le lissage pour remplacer la valeur d'un pixel par la moyenne 
des valeurs des pixels entourant (et incluant) le pixel d'origine (Kharma and Ward, 
1999). 

Une fois l’image du texte est nettoyee, le texte sera segmente en lignes. Nous avons 
utilise les techniques d'analyse dlustogramme de projections horizontales des 
pixels de maniere k distinguer les regions de forte densite (les lignes) des regions 
de faible densite (les espaces inter-lignes) (cf. figure 6). Ces techniques ont ete 
utilisees souvent pour extraire des lignes dans les textes imprimes, qui ne 
presented pas autant de variabilite au niveau de la disposition spatiale des entites 
connexes comme 1’ denture amazi gh e imprimee. 


HHol SXHXAII mOcOl X oEHoO oloELoO 
(HHo U\ wm pX * X SXoAoJK I tYOC IIV 
HHol UoAAoXI X tCoHKOt I CC(IUo 

liGZoH A 0 AO 0 O 
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HIM aHZAII mO«Q\ X ,UCC,G 
m , h\ SY/SH H X SXXK I XYOC IIY 
HHol IJ fl AA*Xl WEaE\ X +D,Kt<H I CCXIUo 

+S 9 LH A ,A 0,0 vCEEO-i! 



fllitfe 5: fliffo^naniu de pr ejections horiz&taales . 

L 4 &fdture amazigbs n’est pas cursive, cela iacilite r operation de segmentation 
(Tune ligsss de texts saa camot&res, Noug evoas utilise llustogramme de projections 
verticals ponr segraenter cheque ligne de teste en atractises. La figure 7 d- 
deasous p&ente one ligne de texts, sort nustograanaae vertical el ie r^idtat de k 
segmentation en caract&res. 


HHol SXHXAII Z)£XO*C\ X *EH*0 oloCr*© 


0 


ItiLaA 

1 1 

"i.'Vv- 

1 m 

-InM A,mA 

Ml 

Li 

iLL 

iL 


0 


MH.,1 


100 200 

103211 B 





300 400 500 000 700 

eOI ISI hEBihOI dIdGGd^ 



Figure 7: Histogramme de projections verticnies et le rdsulist de la xegsimtiatfcm 

en caractires. 


4. Extraction des (tmtirist^ueg 

L’dtepe d'cxtnscticsn des caraeten^tiques est pricWe d’line &ape de pidtxBitemcnt 
qui pennet d’eximre k ligae de base da cantct&e. Cobs dkpe permet de sdpanar 
l°image du caractisre en deux zones : lme mm supmeu&e qui come spend i k zone 
en dessus de la ligae de base, qui eat la line centrals,. et une zone isfideute qoi 
correspond 6 k sane en dsssoos de k ligne ds base. La figure & ci-dsssous rra>nlre 
las positions des tignes d’ecrltrae sue quelques car&cbkes AmwrigHaa- 
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Clpflfr 

...... J . 

NI1.-IP i rtf ji • i.» mJ'p 


Figure 3: Les positions des Hgnes d'i&itiipe sur mdques caratfires Amazt gte. 

I/image da cwnct&e egt crnuiAe balayse da gauche i dra&s? et de hsut m baa par 
ime fenfe giiasante qui s'&dapte «in hanr^sr 4 celte du eejacto (Elhajj et aL, 
2005). Gcs iboter-B tmt% dc lmr^syr fixe (ef. Figaro §>), 



Figure 9: L’imsge du camctertf es tdivisee an jenetres verdcales. 


Dan chaque thsSfcte tm g&dhe ns ensemble de 19 Gan3cl£nBtiques. C@lkn ci mat 
Mf^seotefives des deasxtts d@g pixels d’lsoffiare. Pour c*&. chsque foD&3re eat 
divtade en «n nombre de cellules fixe. Un saw enesnfcle tk# awwl&stiquw sent 
Mies 4 fa position de la Kgae de b&&s pour prendre en compte la liaison de la 
majors dee sMBCtfeE* mmzigksn pax ecus iigos. 

Nous appelma L la petition (erdonntSe y) de ia sigae de base, qii est la ligne 
central* do. cmust&s®, Snpposoas qua H est la hauteur an pfxds de la fonfitre dans 
dbatpse insisge, h eat la hauteur de claque cellule et W eat la laigsur de choque 
astHre, La fenSfre Slant divisSe vertuakawd en edlules, dome upflZb, Seat : 

* n(I): Le nombrc de pixels d’ecriturc (pixels mm) daw la cellule i. 

* r(j>: Le Bijtnbfe de pads tFecntutfe dans k j*”* de pixel* dans one 

ftnSfre verbeole (isie feultes eoufieoit £1 usog&w de pixels). 

* b(s): Le niveau d'nbaiaitS de la cellule i: b{i)H) si n(i)*G, b(i)"l ainosL 
Lea csxactimtiques de densities scat les aurvantoa: 
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fi: densite des pixels noirs dans la fenetre 



1 

H + w 



f 2 : nombre de transitions Noir/Blanc entre cellules 


1=2 


f 3 : difference de position entre les centres de gravite g des pixels d’ecriture dans 
deux fenetres consecutives (1 ’indice t est omis) : 


fs=g(t)-g(t-l) 


Ou la position g est calculee comme suit : 



H 


'Zj-r(j) 





f 4 a f 13 : sont les densites de pixels d’ecriture dans chaque colonne de la fenetre. 


Les caracteristiques suivantes dependent de la position de la ligne de base. 

f 14 : position verticale normalisee du centre de gravite des pixels d’ecriture, par 
rapport k la ligne de base. 

R ~ L Avec L est la position de la ligne de base. 

H 



f t5 - f i6 : deux primitives qui repr6sentent les densitis des pixels d’6criture au 
dessus et au dessous de la ligne de base. 

H L - 1 


E r 0 ) 2>(-0 



i=L + 1 

H.w 


9 



fn - f lg : nombre de transitions Noir/Blanc entre les cellules situ6es au dessus et au 
dessous de la ligne de base. 

i=k i=2 
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ou k est la cellule contenant la ligne de base. 
f 19 : density des pixels noirs dans la ligne de base. 

L’ ensemble des 19 caractgristiques extraites comporte 6 caractdristiques qui 
dependent de la position de la ligne de base, et 13 qui n’en dependent pas. 

5. Apprentissage, Experimentations et Resultats 

5J. Base de donnees utiUsee 

Pour ^valuer la performance de la mdthode propos£e, des exp6riences ont 6t6 
rdalisdes sur une base des modules de la graphie amazighe dlaborde par Ait 
Ouguengay (Ait Ouguengay 2006). C’est une base des modules de differentes 
fontes amazighes et de tallies variees. Elle contient au total 12 polices de 
caracteres et les tallies du 10 points au 28 points pour chaque modele. 

Les modules sont founds sous forme d’images bitonales de tallies variables. La 
taille maximale est de 102^129 pixels, tandis que la taille minimale est de 19*2 
pixels. Une telle disparity s’explique par le fait que le caractdre ‘o’ (ya) est un petit 
cercle, et est done beaucoup plus petit que les autres caracteres. Outre le cas 
particulier du caractere ya, la base est constitute des patterns de differentes fontes 
amazigbes et de tailles variees, qui ne sont pas normalisees. 

La manigre dont sont stockges les images des modgles, dans cette base, ne permet 
pas la possibility de re-normaliser leur taille en une taille moyenne fixe. En effet, 
Ceci peut etre genant en particulier k cause de la ressemblance des caractgres ’o’ 
(ya) et ’O’ (yar), qui ne se diffgrencient que par la taille: le caractgre ya est im petit 
cercle, tandis que le caractgre yar est un grand cercle. Dans certains cas, on aura 
une confusion rgelle entre des images de ces deux classes. Ce problgme aura une 
influence sur les resultats. Chose qui va etre traitee dans les fiiturs travaux en 
essayant de developper une base de caracteres plus sophistiquee. 

Notre systeme exige que les images des caracteres en entree soit d’une taille 
normalisde. Pom cela, nous avons normalisd ces caractgres en une taille moyenne 
48x40. Ces images de taille normalisde et en format pr6trait£ seront directement 
soumises en entree au module d’ extraction des caractdristiques. 
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52. Expiritmft^Miotta tiRitutoots 

De sombreiiK algoritfamea de clarification automatique existent et plusieurs 
iinpL&aeitfations da eea dcmkrs soul disposables an tikchargeicent. Plusieurs 
boites k outih d’appentissage icgitnipait de teiles mplfitnenialiotis, ce qui en fact 
dec (Mils iddaux pour lancer des scatp^rieinces syst&iiatiques. Nona avocs Mr le 
choix de k plate-forme Weka (Widen et Frank, 2005) pour rfafiaer rappr enfclaa age 
et testcns k m^thode picpoa^e. 

WEKA eat un projet open source de lTJmveraitd de Waikato (Witten et Frank, 
2 005), H adrt hrg a nect utilise dam lea university et per plusieurs dwtcheurs du 
mantle dans le domaine dkxplorartiott de doonfes. Cel oulil public propose m 
ensemble valid d’al gorithm es d’appnantisrage pr&s k I’empld pour la fouflle de 
donnde. Nous utHkoos la mfttiiodft de classification: rteeasux de neurones, 
perceptions mufti couches (Mufti Layer Perception (MLP). Le perception 
multicoujete de WEKA (MLP) a dtfi mis en osuvre par Malcolm Ware en 2000 
(Ware, 2000). Son utilisation a 6t£ document^ dans un certain nambre de 
publications do recherche (Klan tau 2002). Nous evens utiJk£ ce classifieur avee ses 
paramSftcs par defkut 

De plus, Weka gp&afie an format standard aux fielders d'entrateetatsii et de test 
(ce sent dcs fichtera texts avec unc extension *.arff). Pour cela nous avons gsti£r6 
deux fichieng, m pour rapprentiasage et l’autre pour le test La figure 10 pn&sente 
un extrait d’m exemple dfe ficMcr d’entteinement. 


ima g efich ierAPP_6Z7_fl_fl 3.a rff - WardPa d 


Jnjxj 



Figure 10: Un extrail du fielder xtrfi d’mtndnement . 
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Pour evaluer les performances de la methode proposee, des experiences ont ete 
realisees sur la base des caracteres amazighe decrit precedemment. Les tests ont ete 
effectues en fonction de l’integration des caracteristiques, dependantes et 
independantes de la ligne de base. Ainsi, trois experiences ont ete realisees sur un 
ensemble de 19437 exemples (31 * 627) : un sous ensemble de 12958 images 
(66,67%) pour l’apprentissage, et un sous ensemble de 6479 images (33,33%) 
pour le test. Les deux classes sont dquiprobables. 

Le tableau 1 ci-dessous, pr6sente les rgsultats du syst&me propose. Le taux de 
reconnaissance atteint 98,25 % lorsqu’on intdgre les caracteristiques basdes sur la 
position de la ligne de base. Ce qui montre que les caracteristiques bas6es sur la 
position de la ligne de base offrent une amelioration significative aux performances 
de reconnaissance. 


Les caracteristiques 

integrees 

Apprentissage 

Test 


Tattle 

Taux 

d’appr. 

Tattle 

Tauxde 

Recon. 

fi,..., fl3 (independantes de 
la ligne de base) 

12958 


6479 

85,38% 

fi 4 , . . ., fi 9 (dependantes de la 
ligne de base) 

12958 

95,89% 

6479 

94,67% 

fi, .., fi 9 (dependantes et 
independantes de la ligne de 
base) 

12958 

■ 

6479 

98,25% 


Table 1 : Risultats de reconnaissance en fonction des caracteristiques intdgrdes. 
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Figure 31: Matrice de contusion pour le cos des caractinstiques fl, testd 

sur la base de 6479 earact&re$. 


Leg causes d'eneurs soot prinripaknaert dues 4 la resgembiance entre cettaks 
earaet&res sur des fortes di£F£rertes. Ec eilet, l’&ude de la inatrioe de confusion du 
systeme sur la base des tests, presentee sur la figure 11 ci-dessus, amis en Evidence 
que la ntejodte des strews £ta£ert £utes sur les caract&res yaq (X), ysn (I), yar (O), 
yab ( 0 ), ya (#), yaw (U). A litre d’exen^le, 1 1 images du cwacbere yam (i) on 4 tes 
recomms conaw caractdav yaj (I). D’aflkura, le fommt du caractere van (I) sur la 
forte * tasaafut* reasenible entibrement au caractere yaj (I), comme le montre la 
figure 12 ci-dessous. 



Figure 12 : Quetques exemptes du caractSre yan (f) dans la base, dorst la fonte est 

1 tassqfut ' 
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6. Conclusion et Perspectives 

Dans cet article, nous avons presente un systeme pour la reco nnai ssance 
automatique de T6criture amazighe h base de la position de la ligne de base de 
chaque caractdre. Plusieurs caracteristiques ont 6te 6tudi6es et compares. 
L'importance de l’utilisation de la position de la ligne de base dans l'image du 
caractere a 6te prouvSe. Les caracteristiques extraites sont bashes sur la density des 
pixels de d£riv6e dans une fenetre glissante. Le systeme d6velopp6 a 6te 
experiments sur une base des modules de la graphie amazighe. Les tesultats 
montrent une amelioration significative du taux de reconnaissance lorsqu’on 
integre les caracteristiques dependantes de la ligne de base. Parmi les travaux 
fiiturs de ce travail, nous allons aj outer d’autres caracteristiques qui ameliorent les 
resultats pour certains caracteres dont le taux de reco nnai ssance est faible par 
apport aux restes. En plus, nous allons appliquer notre approche sur une base de 
donnees manuscrite qui va etre developpee localement. 
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1. Introduction 

Dans le domaine de la reconnaissance automatique des caracteres, plusieurs 
recherches scientifiques ont ete effectuees sur les caracteres latins, arabes, et autres. 
Ceci a permis le developpement de plusieurs approches de reconnaissance 
automatique pour ces caracteres. Par contre, les caracteres Amazighe, appeles 
Tifinaghe, sont tres peu traites. Et pour extraire les informations Amazighes sur des 
supports, la reconnaissance automatique est devenue primordiale (Elkessab, 2009). 

Ce travail consiste a reconnaitre les caracteres amazighs manuscrits. Le traitement 
de chaque caractere commence par les pretraitements afin d’enlever toute sorte de 
bruits lies a la phase d’acquisition. Ensuite, par l’extraction d’une information sur 
les differentes directions de son trace de base. Cette information est exploitee pour 
genCrer une sequence d ’observations. La sequence obtenue est utilisee pour 
entrainer un Modele de Markov Cache pour chaque caractere. L’apprentissage est 
realise avec l’algorithme de Baum-Welch. La classification est enfin effectuee par 
recherche du modele discriminant. 

L’utilisation des HMMs en reconnaissance automatique de l’ecrit a permis 
d’obtenir des r6sultats int6ressants pour certaines applications grace a leur capacity 
d'integration du contexte et d'absorption du bruit (Pechwitz et al, 2000). Les 
differents travaux realises reposent pour une grande partie sur I'experience 
accumulee dans le domaine de la reconnaissance de la parole ou les HMMs sont 
frequemment utilises. Compares a d’autres approches de reconnaissance 
(structurelle, geometrique, etc.), les HMMs se distinguent par leur capacite de 
modeliser efficacement differentes sources de connaissance. En effet, d’ une part 
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ils offrent une integration coherente de differents niveaux de moderation 
(morphologique, lexicale et syntaxique) et d’ autre part, il existe des algorithmes 
puissants permettant de determiner la valeur optimale des parametres foumissant la 
meilleure adequation entre le modele et la base de donnees (connue) qualifiee 
d’apprentissage. 

Dans ce papier, nous prgsentons une mdthode de reconnaissance des caract&res 
Tifinaghe en se basant sur les modules de Markov Caches. Les Stapes du syst&me 
developpe sont illustrees dans la figure 1. 

L’organisation de cet article est comme suit. Dans la deu xi eme section nous 
presentons un resume de la theorie markovienne, dans la troisieme section nous 
rappelons les principales caractSristiques morphologiques de l’Scriture amazighe. 
Dans la quatriSme section nous prSsentons les diffSrentes operations de 
prStraitement. Dans la cinqui&me section, nous dScrivons la mSthode d’ extractions 
des caracteristiques. Dans la sixieme section nous presentons la methode de 
classification. 

2. Theorie des chaines de Markov 

2J Definition 

Un processus stochastique \X t ,t eT/est une collection de variables aldatoire 
d&finies sur un meme espace probabilisS, 1’ indice t est souvent interprStS comme le 
temps (Pechwitz et al, 2000). Le processus est en temps continu si T est continu, et 
en temps discret si T est discret. 

La variable X t represente l’etat du processus au temps t et l’ensemble de toute les 
valeurs possibles pour cette variable est appele 1’ espace des etats du processus et 
sera notS E (Pechwitz et al, 2000). 

Un processus stochastique dont l’ensemble des Stats E est fini ou dSnombrable est 
appelS une chaine (Pechwitz et al, 2000). Un processus est & temps discret lorsque 
l’ensemble T est fini ou dSnombrable. 
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Tituiaghe texte 



i 


Cara cters identifie 

Figure 1 diagraming du nszsmz ds 
reconnaissance 


Une ch*f tea ds Mflffeov & tesupg discr&te esl mi process, gisdiftiitiqus 
{X„,»-04,.„} £ temps diacrat, *MiM $ar bh tspace d’itats E fini ou 
d^mnbraibk ss veiiil*nt isfrapiiftte ds Ma±ov 

P[X C = i|Jf 0 Jr._, ] = f[x m = fcj, powr tmi f € E « V»£l. 
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2J Chatne Qbwrvabk 

L'dvoluiiou du processus tk> Maikov pout Dire ropnSsenrfie par un gRif&e do 
transitions d’itet? (figare 2) qui Mt apparsitre la structure du processus scion 
certaines rtgLes. 


22 J Cfufine Cach£e 


Dam uu Medfcb de Markov Cach6 (MMC) tea £tals 

S — {tf lt J a f K !sont non obsarvuMcs; espoadasi its 4ra@tteat des 

aigmuz observables 0 = ^, 0 -,. . »„} qui sent poad&fe pur leur 

probability, Le module X peut &im repri««nJ£ graphiqo eit&enl (Figure 3), avec lea 


tets S = & 


Jt 


.} 



IHgwe 2 Graphe dim Modile de Ai&rk&v Observable 
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Figure 3 Graphs d'tut Mod&U de Markov cachde 


222 Types 4$ HMMs 

Seim* la topologie da itaesn dee £tea, flya deux types de HMMs. Ce sent le 
module etgodique at, le module gauche droits. 

223 Mtx&le rgodique 

Module e^adique c T est ua module esess camtemtes oi touteg lee transitions d'wn 
diet vets route *»js possibles, c'efrt-A-diie &, > 0 € |l T JV \ . 


22 A Mad&te gauche &otm 

Modlle pmdie tirtrite (figure 3) est un models o4 tl y a dcs noiteinke mr dew 
: gseteme&t la tanliiaft (Put* dtat ayanl mi itdkxi bags vas no dM ayaM 
mt indice haul est posable. 
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?;ir Jldc 


Figure 4 hssmodiles gauches droits. 

23 PmiUmes pourHMM 

Probl&ne 1 : Eiant dmrnS le module Jt = (A,B, w), comment on pout calculer P 
(0|?.), Is probability de l'occurrence de la sequence des observations 
0 = o, ,o 2 — f o T e'est le problems de reconnaissance. Pour rgsoudre ce 

probldme, on utilise Is procedure aHer-retour (forward-backward procedure). 

Probl&ne 2 : fitant dorrnd le module X = (A,B, n) f comment on pout cboisir one 
sequence des 6tats Q — q j t q 2 q T afin de nratimiser Is probability P (O s Q|X). 
Pour resoudre ce problteae on utilise l’algotithoK de Viterbi. 

Froblime 3 : Comment on pent sjuster Iss pararnytres de KMM afiti de maximiser 
P (0[X). 

Cest le problems d’&jppreirtissage. Pour rdsoudre ce problems on utilise 
Palgorithme de Baum - Welch. 


- 376 - 



LES RESSO URCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


3. Les caracteristiques morphologiques des caracteres 
amazighs. 

Le Tifmaghe est le systdme d’6criture de la langue amazighe. 11 tire son origine du 
vieil alphabet libyque et saharien, dej& utilise depuis le VIeme si£cle avant l'ere 
chrdtienne par les populations de l’Afrique du Nord, du Sahel et des lies Canaries. 
Cet alphabet a subi des modifications et des variations depuis son origine jusqu'& 
nos jours. 

La figure 4 ci-dessous presente les differents modeles de Palphabet Amazigh 
(Tifinaghe-IRCAM). II comporte cinquante cinq lettres. A la difference des 
caracteres latins et arabes, l’ecriture Amazighe n’est jamais cursive, ce qui facilite 
toute operation de segmentation. La majority des modules graphiques des 
caracteres est composee de points, de petits cercles, et/ou de segments. De plus, les 
segments sont tous verticaux, horizontaux, ou diagonaux. 


» e e X X X T A V E 3 «■ H K :-K 

1 2 3 4 5 6 7 a 9 1 o 11 1213 14 is 16 

CD 0 ! XhX :: Z $ I X + II C I 

1 7 la 19 20 21 22 23 24 2E 26 27 2a 29 30 31 32 

* i SoOQV • :•: © <3 (g t X € E 

* 

33 34- 35 36 37- 33 33 40 41 42 43 44 45 46 47 46 

A U SX r >K u 

49 50 51 52 53 54 35 


Figure 5 les caracteres Amazighs 


4. Pretraitement 

4J SeuUlage 

L'image entree est une image en couleur et les algorithmes de reconnaissance 
courants travail lent souvent sur des images binaires. Done, il faut faire le seuillage. 
Pourtant, quand le fond est tres complique, cela devient un probleme difficile. 
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42 Reduction du bruit 

Le problems du bruit est tres important mais ties diffi cile a reduire en totalite. Ici 
nous avons adopte le filtre median (El-Hajj, 2007). 

43 Segmentation 

Pour d&ecter des lignes, on peut utiliser la projection verticale comme dans l'image 
suivante : 


W.E+II 

1 

t 

v:o© 

m 

+:qaiai 





Figure 6 (a) detection des lignes (b) histogramme 

Horizontal 


Cependant, quand les lignes sont longues et obliques, la detection des lignes 
devient plus difficile. De plus, les mots et les caractdres dans ces lignes sont 
rotatoires. Cela cause des problemes pour l'6tape de reconnaissance. Done, il faut 
appliquer les teebniques de detection d'obliquitd. Pour detecter des mots dans une 
ligne, on utilise la projection horizontale. La difficult^ est de determiner la distance 
entre les mots dans une ligne pour qu'on puisse combiner les parties isol6es d*un 
mot (Margner, 2005 ; Amrouch, 2009 ; El ayachi 2009). 



Figure 7 R6sultat de segmentation vertical 


378 




LES RESSOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


Si l’etape de reconnaissance est basee sur le caractere ou sous caracteres, il faut les 
segmenter. Pour l'ecriture mamiscrite c'est un probleme particulierement difficile 
parce qu'il n*y a pas des points pour les separer. 

4A Normalisation 

La taille d'ecriture peut varier largement. Pour faciliter l'etape de reconnaissance, il 
faut normaliser rimage enttee en une taille fntee. Mais si la taille fix6e est ttes 
petite, on peut perdre d'information, si elle est trds grande, l’6tape de 
reco nnai ssance va operer lentement. 

5. Extraction des caracteristiques 

L'application desMMCs & la reconnaissance de l'dcriture se rantene g&teralement 
& la transformation de la forme en primitives judicieusement choisies, 

L'identification directe du caractere a partir de son image (matrice de pixels) 
semble tres difficile meme impossible a cause de la morphologie des caracteres 
amazighs et de la grande variabilite liee au style d’ecriture utilise et au bruit 
entachant l’image. D’ou la necessite d’obtenir, a partir de la representation en 
pixels du caractere, un ensemble de primitives permettant d’identifier facilement ce 
dernier. Ces caracteristiques doivent etre discriminantes. 

Afm d’extraire ces primitives a partir de l'image du caractere, nous effectuons 
d’abord la Transformee de Hough (Fakir, 2009) de chaque image. 

5.1. La transfomtise de Hough 

La transformee de Hough est une methode classique de detection de formes 
simples dans une image souvent utilise pour l'extraction de primitives (Fakir, 
1993). L'approche adoptee par cet algorithme est de chercher a accumuler a 
l'interieur d'un espace de parametres representatifs, des donnees confirmant la 
presence de formes particulieres. 

Nous proposons dans cet article de detecter les droites a l’aide de cet algorithme : 
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52. Exemple 



► 



Figure 8 : La lettre M et sa transformee de Hough 


Dans les calculs, les images de caractdres sont de taille fixe (96*96) pixels, et le A6 
est pris 6gale 30, par consequent l’accumulateur de Hough contiendra une 
information sur 6 orientations de (0°, 30°, 60°, 90°, 120°, 150°). 

53. Giniration des sequences d’ observation 

La generation de la sequence d’observations directionnelles est obtenue en 
exploitant les donnees cnrcgistn5es lors de la partie precddente. En effet, nous 
s61ectionnons le minimum des primitives representatives pour les directions 
dominantes. 

La figure ci-dessous represente le vecteur d’observation g6n6re par la lettre M. 



( 5 , 6 , 1 , 4 , 5 , 6 , 1 ,3 ,4 , 5 , 6 , 1 , 2 , 3 ) 


6. Classification 

Lors de cette phase nous entrainons les modules de Markov caches de differents 
carac teres par la procedure classique de Baum- Welch afin d’ajuster leurs 
parametres. Chaque caractere poss^de son propre module suivant les i£sultats de 
l’etape precedente. Par consequent ralgorithme va rechercher dans tout l'espace 
des MMC modeiisant chaque caractere, cede qui a la probabilite ma ximu m de 
g6n6rer la sequence d'observations constituee a la phase « generation de la 
sequence d’observation » pr6c6dente. Le meilleur MMC trouve, est enregistre pour 
former une base d’apprentissage 
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Nous avons construit durant l'apprentissage autant de MMCs qu'il y avait d'images 
de caracteres a apprendre, alors la classification se fait d’abord par recherche du 
modele discriminant parmi tous les meilleurs MMCs enregistres pendant cette 
phase de l’ensemble des caracteres etudies. En effet, nous calculons par 
1’algoritlune de Forward avec quelle probabilit6 ces modules peuvent g6n6rer la 
sequence d'observations de caract&re k reconnaitre, par la suite nous disposons 
d*un ensemble de modules avec chacun un score, le module 61u est celui poss6dant 
le plus grand score. 

7. Resultats experimentaux 

42 caracteres sont lus dont 21 ont 6t£ reconnus, soit un taux de reconnaissance de 
87%. En ce qui conceme les lettres, le meilleur rdsultat atteint avec cette approche 
a ete de 94%, pour le caractere (zed). 

8. Conclusion et perspectives 

Les Modeles de Markov Caches s’adaptent bien a la variation de la longueur 
d'ecriture manuscrite, Cependant, sa capacite de discriminante n'est pas ties forte 
car chaque MMC utilise les donnees d'apprentissage d'un seul caractere. De plus 
l’une des faiblesses des MMCs, provient du niveau de l’estimation des probability 
d’ emission d’observations. Pour remedier a ces problemes, nous pensons a une 
m6thode hybride combinant les MMCs et les rgseaux de neurones, ou k une 
hybridation des MMCs et SVM. 
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Resume 

La question des ressources lexicales est de premiere importance dans le domaine 
du Traitement Automatique des Langues. En effet, le developpement 
duplications efficaces reposant sur le traitement d’une langue donnee exige des 
ressources linguistiques de qualite. A l’exception de la langue Anglaise, il est 
constate que de telles ressources sont encore a l’etat embryonnaires pour des 
langues telles que le Frangais ou l’Espagnol, et pratiquement inexistantes pour 
l’arabe. Cette absence est la consequence directe de deux facteurs : les couts de 
constitution de telles ressources et le temps nEcessaire & leur Elaboration et 
finalisation. 

Nous proposons de presenter au sein de ce travail une ressource lexicale pour 
l’arabe. II s’agit d’un lexique morpho-syntaxique des verbes arabes conjugues a 
large couverture et utilisable dans les applications de Traitement Automatique des 
Langues. 

La ressource contient 24175 verbes distincts, pour lesquels nous gEnErons & partir 
d’un conjugueur les formes conjuguEs entierement voyellEs (soit environ 2446962 
entrEes). Des informations morpho-syntaxique (temps, voix, case, personne, 
nombre, genre) sont donnees en plus du lemme et de la racine dont decoule la 
forme conjuguee. 

1. Introduction 

Les lexiques morpho-syntaxiques sont des ressources fondamentales pour le 
traitement automatique des langues. Ils associent un mot a une ou plusieurs 
catEgorie/s grammaticale/s et un ou plusieurs lemme/s. Aujourd'hui, de tres 
nombreux lexiques ont ete produits dans le domaine, et sont majoritairement de 
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langue 6trang&re (anglais, fransais...). Ceci a permis l'essor considerable des 
traitements automatiques concemant ces langues. 

Pour la langue arabe, il n'existe pas k ce jour de lexiques morpho-syntaxiques 
ais&nent disponibles et les recherches linguistiques qui ont recours & des lexiques 
morpho-syntaxiques sont rares. Soucieux plus par ce manque, l’6quipe Traitement 
Automatique de la Langue arabe a entrepris un projet de recherche dont l’objectif 
est la constitution d'un lexique morpho-syntaxiques. La disponibilit£ de ce lexique 
va donner un coup d'envoi aux divers travaux de recherche linguistique qui utilisent 
les lexiques morpho-syntaxiques. 

2. Classification des verbes arabes 

2.1. GiniraliUts 

Tout verbe arabe est forme sur une racine de trois ou quatre consonnes coulee dans 
un ou plusieurs schemes caracteristiques , on parle alors respectivement de verbes 
triliteres ou verbes quadriliteres. Selon la nature des lettres qui forment la racine on 
distingue deux prindpales classes: verbes reguliers et verbes a glides. 

22. Verbes reguliers et verbes a glides 

22.1. Verbes reguliers 

La classe des verbes reguliers juL'i) est formee des verbes dans 

lesquels aucune des lettres radicales n'est faible ou «)> cette classe est formee de 
trois sous classes: 

a) Les verbes & racine saine («iui juL): ce sont des verbes dans lesquels la 
Hamza ne constitue pas une lettre radicale, et la deuxi&me et la troisi&me lettres 
radicales ne peuvent 8tre identiques, par Exemple : (^L). 

b) Les verbes it racine redouble juiSii): ce sont des verbes dans lesquels 
la deuxieme lettres radicales est doublee (la deuxieme et la troisieme lettres 
radicales). Par Exemple: (L). 

c) Les verbes hamzes (jj^i juVi): ce sont des verbes ou la Hamza constitue 
l'line des lettres radicales. Par Exemple : (L). 

222. Verbes d. glides 
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La classe des verbes a glides^ ju&i) ) sont des verbes dans lesquels une ou 
deux lettres radicales est/sont faible/s ou j) cette classe regroupe cinq sous 
classes qui sont : 

a) Les verbes assimiles (;lmi ju&i): ce sont des verbes dans lesquels la 

premiere lettre radicale est faible (j ou ls). Ils out appeles ainsi parce qu’ils sont 
assimiles aux verbes sains et se conjuguent de la meme maniere qu’eux a 
1’ accompli actif et passif. Par Exemple : 

(j^y. assimile waw) et (yJ: assimile yae). 

b) Les verbes concaves ju&i): ce sont des verbes dans lesquels le 
deuxieme radical est (j ou l?), il est ainsi appele parce que la lettre faible se trouve 
au milieu. Exemple: (.(.., ^ ,jis 

c) Les verbes manquants ou defectueux ce sont des verbes dans 

lesquels la derniere lettre radicale est faible. Exemple: (J>j . .). 

d) Les verbes dits (j j>' Si la premiere et la troisieme lettre radicale sont 

faibles, par exemple : (ls* ,<&). 

e) Les verbes dits Si la premiere et la deuxieme ou la deuxieme et 

troisieme lettre radicale sont faibles, par exemple : (L ,. . .) 

23. Verbes simples et verbes augmentes 


Pour certains verbes, la forme de citation contient trois ou quatre consonnes qui 
forment la racine et des voyelles breves choisi parmi (a, u, i). Ces verbes sont 
appeles des verbes simples. 

Pour d’autres verbes, on trouve dans la forme de citation, autre les consonnes de 
radicales, soit des voyelles longues, soit une ou plusieurs des dix consonnes 
formatives de schemes ces verbes sont appeles des verbes augmentes. 

23.1. les schemes du verbe simple: 


Les schemes du verbe simple sont caracterises par une variation de la deuxieme 
voyelle du verbe a l'accompli et a rinaccompli (altemance vocalique). Six types 
d’altemances vocaliques existent: 



ji ji 


j ■' i — 




O 

s' . / 

j 


} O 


s' / 




385 



LES RES SOURCES LANGAGIERES : CONSTRUCTION ET EXPLOITATION 


9 x O x 


9 o y y 

~~ (4 



: y- jA (5 



On constate que les schemes du verbe simple peuvent etre identifies par la forme 
de l’accompli: ce sont les schemes (J^, 


2.3.2. les schemes du verbe augmentes: 


Theoriquement, il y a quinze schemes augmentes de verbes en arabes. En pratique, 
dix d’entre elles se rencontrent avec une certaine frequence. Les autres sont des 
formes rares. 


* ^ 


9 y y 9 y w & y * j y t y 

\ JjuLj - (7 


x y y 


J .pLaj - (8 

— rX' ; y- - j**' (9 

y 

5) / 5) / 9 y y y y y 

9 > M XX X » ^ X • ( cM xx | x 

^2-0 - Jjtii) - JjtiJ (10 

9 x 9 y y y 

J y . x xx I x . x x • | x . xx | x x 

~“'x- _ cP'y^y 1 (ll 

x x 9 y y y 

9 Ox xx ? i * ( . i x .0, 

j-wvOs-J — SJ) 1^- (12 

X 

^ O x O 

x xO x x xxO , • J xx J x x, . 

_ X^i ^ (13 

X 

^ cS O & O 

^xOxi^xO, • j xx | x , . 

lH"- - (14 

x ^ 0 x 0 

x . O xO x x . O xO • | xO x | x xO 

^ ^ ! (15 

Jl ^ & o & o 

t^.xOx Ji y O , • » . x ^ x » . x , . 

i jL*j2j - (16 

**U , Csifo . . * X ts°.s 

Op^rsJ 0 ) \ - (J ^Xs\ (18 

^ X XXX 

O x J 2 x x O x • j.oJ 1 ( . O . 

( 19 

9 y y y y y 

9 x O x xx xxOxx • | | O xx | | O ( x 

^ ^ j^-Ju (20 

9 O x x O 

x OxOx xxOxO, • j. Ox # x j . Ox , . 

— ^?rJ j>-\ (21 

x 

9 o X o & o & y o 

o# y . - y ^ y y, - i * i|X,x i I x , . 

1 - Ulx3] (22 


9 OxOx xxOxO 


Le nombre de paradigme de conjugaison peut etre calcule a partir des differentes 
formes precites en tenant compte des variations phonologique et orthographique 
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induit par les glides. Ainsi, nous avons ttablie une liste de 236 paradigmes de 
conjugaison differente. 

Pour chaque module de verbe, des regies morphologiques approprites ont 6t£ 
con^ues. Ces regies ont 6t6 reconstitutes & partir des manuels de la morphologie de 
l’arabe standard. 

3. Les principaux traits morphologiques du verbe 

Un verbe arabe peut avoir six traits morphologiques : 

3.1. L’aspect: 

Le verbe arabe a deux aspects de conjugaison: 

a) L’accompli qui exprime une action achevee. 

b) L’inaccompli qui exprime une action qui est en train de se rtaliser, sans 
etre accompli. 

A cela s’ajoute l’imperatif qui exprime l’ordre ou la demande et dont la forme se 
construit a partir de celle de rinaccompli apocope. 

3 2. Le mode : 

La notion de mode n’existe que pour le paradigme inaccompli, ce dernier connait 
trois modes: 

a) L’indicatif. 

b) Le subjonctif. 

c) L’apocqpe. 

33. La personae 

On en distingue trois : 

a) Premitre personne. 

b) Deuxieme personne. 

c) Troisitme personne. 

3 A. Le genre du verbe 

Dans la langue arabe, il existe deux genres : 
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a) Masculin 

b) Feminin 

3.5. Le nombre du verbe 


Un verbe arabe est pourvu de nombres suivants : 

a) Le singulier 

b) Le duel 

c) Le pluriel 

3.6. La voix 


La langue arabe a deux voix : 

a) L’actif 

b) Le passif 

En consequence un verbe arabe peut avoir 126 formes flechies quand il se 
conjugue a la fois la voix active et la voix passive et 70 formes flechies lorsqu'il ne 
se conjugue qu'a la voix active. 


4. Processus de la conjugaison 


Tous les verbes arabes se conjuguent de maniere identique, en ajoutant un 
ensemble defini de suffixes a une base verbale d’ accompli, et un autre ensemble 
defini de prefixes de personnes et de suffixes de genre, de nombre et 
eventuellement de mode a une base verbale d’inaccompli. Cette operation entraine, 
dans certains cas, des problemes de voisinage qui necessitent certains ajustements 
phonetiques puis, par consequence, graphiques. On va se limiter dans ce qui suit a 
presenter quelques regies qui sont communes a tous les modeles 


Si R3 = 
Si R3 = 
Si R1 = 
Si R1 = 



SC(R1 = ”^ n ou R1 = "J") et categorie = 13 alors 

<- ^ "j!) 
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} o / 

/ / i S S ^ 




Si (R1 = ” u p" ou R1 = "Up" ou R1 = et clagse = 13 Uisl) alors 

« — f-W)., < — r^l) 

J* 0 ^ 0 ' 35 ' ^0 

Si R1 = H o H et categorie = 13 J -*%) alors ^ ^ 

Si R1 = M ^ M et categorie = 13 J alors 

f 0 s' 0 s'i 5 s's' 0 s' 0 

Si R1 = "i?" et categorie = 13 (J^Ljj— J jc ^[) alors 

5. Description de la base utilisee 

Notre base couvre la plupart des verbes triliteres ainsi que les verbes quadriliteres 
rarement utilise, elle contient 24179 verbes. Elle est au format xml: 

<?xml version="1.0" encoding="windows-1256" ?> 

<verbes> 

<verbe valeur="^" Ina="^" Rl="—" R2="o>" R3="^" R4="" categorie= ,! 1 " classe_numero=" 1 " 
transitivite_numero="2" /> 

<verbe valeur="iK" Ina="di^i" Rl="^" R2 ="cj" R3="^" R4="" categorie="l" classe_numero=" 1 " 
transitivite numero="2" /> 


</verbes> 


Figure 1 : Extrait du fichier xml de la base utilise 


Chaque ligne contient en plus de la valeur du verbe, les informations suivantes: 

Le verbe conjugue a l'inaccomplie (attributs XML ina). 

La Racine (attributs XML R1 , R2, R3 etR4). 

La Categorie (attributs XML categorie). (Voir annexe 1) 

La Classe (attributs XML classe_numero). (Voir annexe3) 

La Transitivite (attributs XML transitivite numero) . (Voir annexe2) 

Cette ressource est en constante evolution. 

6. Jeu d’ etiquettes utilise 

Les etiquettes morpho-syntaxiques indiquent la nature de la forme qui est codee : 
temps, voix, case, personne, nombre, genre... La taille du jeu d’etiquette depend 
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6troitement des objectifs de la recherche envisagde. Selon le niveau de finesse que 
l’on veut atteindre dans la description, on peut recourir a un jeu d’ etiquette 
important. Inversement, dans cer tains cas, le jeu d’ etiquette peut en rester a des 
distinctions relativement grossieres. Notre jeu d'etiquette comporte 126 etiquettes 
diffgrentes. 

<?xml version="1.0" encoding= " windows- 1256" 7> 

• Etiquettes> 

<Etiquette Code-'l" Temps="^~AAi" Voix=">^' n Mode— ' — ” Personnel" 1" Nombre- 
Genre=%u" /> 

<Etiquette Code="2" Temps-' ^ ai" Voix Mode=" — " Personne="l" Nombre 

= V Genre="-bL.-" /> 

<Etiquette Code="3" Temps-' ^ ai" Voix Mode=" — " Personne="l" Nombre 

="-'■" Genre=" ^" /> 

<Etiquette Code="4" Temps—' ^.ai" Voix Mode="— " Personne="2" Nombre 

="» >• Genre="/A>" f> 

<Etiquette Code="5" Temps=VAi" Voix ='V^" Mode="~ B Personnel" 
Nombre-' j >•" Genre="Aj>>" /> 


</Etiquettes> 

Figure 2 : ieu d'etiquette utilise 

Chaque ligne contient les informations morpho-syntaxique (Temps, Voix, Mode, 
personne, Nombre, Genre) pour chaque etiquette. 

7. Description de la ressource generee 

Le lexique morpho-syntaxique produit est constitue de 2446962 entr6es, et il est 
presente sous deux format: format Txt et format Xml. 

Pour le format Txt, le lexique est form6 de sept colonnes s6par6es par des 
tabulations: 

Colonne N° 1 contient la forme conjuguee. 

Colonne N° 2 contient le lemme. 
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Colonne N° 3 contient l'ytiquette associde a la fonne conjugude. 
Colonne N° 4 contient la racine dont ddcoule le verbe. 

Colonne N° 5 contient la catygorie du verbe. (Voir annexel) 

Colonne N° 6 contient la classe du verbe. (Voir annexe3) 

Colonne N° 7 contient la Transitivity du verbe. (Voir annexe2) 


Forme 

Lemme 

Etiquette 

Racine 

Categorie 

Classe 

Transitivity 

-■ o ^ 

...L 

1 


5 

1 

2 


r - - 

2 


5 

1 

2 



3 


5 

1 

2 

x 0 x 

C— * 0- 


4 


5 

1 

2 

0 .✓ 


5 


5 

1 

2 

■ 

V 

■ 








Figure 3 : Extrait du lexique genere (format txtl 


D’autre part, et afin de faciliter les echanges de cette res source a travers la 
communaute du TALN (independamment des plates -formes, des logiciels, des 
systemes Sexploitation), nous allons la representer au format Xml. 


<?xml version="1.0" encodings " windows- 1256" ?> 
<formes> 


<forme valeur="^—^ ” Lemmes"^— Etiquettes "l" Racines 11 ^—--^ 11 categories"^ 1 classe_numero= " 1 Ir 
transitivite_numero= l, 2' 1 /> 

<forme valeuis"Ll^’ 1 l£mme ="L^-" Etiquettes 11 2" Racines 11 — categories "5" classe_jmmero= " 1 " 
transiti vite_j3umero= l '2 n /> 


<forme valeur=" 


L emme =" 


Etiquettes 11 3" Racines" 


categories 11 5" classe_numero="l" 


transitivite_numero= l, 2 n f> 
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<forme valeur^ ir ^4~*^ " Lemme="v~^" Etiquctte= l '4 fl Raring 1 ' ^- ,l categories 5" 
transitivite numero="2" /> 


classe_numero= " 1 Ir 


<forme vaIeur='V 


Lemme="; 


Etiquette="5" Racme='V 


categories 5’ 1 classe_numero= " 1 " 


transitivite_numero= "2 " /> 


</formes> 


Figure 4 : Extrait du lexique genere (format xml 1 ) 


Pour ce format, chaque ligne contient en plus de la farme conjuguee les 
in formations suivantes: 

Le Lemme (attributs XML lemme). 

La Racine (attributs XML racine) . 

- L'Etiquette (attributs XML Etiquette) . 

La Cat^gorie (attributs XML cat^gorie). (Voir annexel) 

La Classe (attributs XML Classe) . (V oir annexe3) 

La Transitivity (attributs XML Transitivity) . (V oir annexe2) 

8. Applications visees 

Ce type de ressource a bien entendu un intyrgt linguistique intrinsyque, mais 
constitue surtout un element de base pour tout systeme de traitement automatique 
des langues. D’une maniere generate, les lexiques annotes permettent de 
developper des outils de traitement informatique du langage, et plus 
particulierement ils servent k 

- L’yiaboration de systemes: de nombreux systemes de traitement de la langue 
fonctionnent par apprentissage & partir d'un lexique annoty. 

- L’evaluation de systemes: les lexiques de grande taille sont particulierement 
utilises pour evaluer les systemes developpes et valoriser les resultats des 
recherches. 
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9 . Conclusion 

Nous avons presente la demiere version d'un lexique morpho-syntaxique des 
verbes arabes H large couverture, La disponibilitd de ce lexique va donner le coup 
d'envoi aux divers travaux de recherche linguistique et plus particuli&rement dans 
le domaine d'analyse morphologique, et l'dtiquetage morpho-syntaxique. 

Comme perspective de ce travail, on va se pencher sur l'elaboration d'un lexique 
morpho-syntaxiques des noms. 
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Annexes 

<?xml version=" 1.0" encoding=" windows- 1 256" ?> 

<awzans> 

<wazn numero=" 1 " wazn="j-l - ^ " /> 

<wazn numero="2" wazn="jil->” /> 

<wazn numero="3" wazn="j4->" /> 

<wazn numero="4" wazn="j^ ^" /> 

<wazn numero="5" wazn-'j^'- V /> 

<wazn numero="6" wazn="jii -ji i" /> 

<wazn numero="7" wazn="jii'-^" /> 

<wazn numero= " 8 " wazn="j^W-jiii" /> 

<wazn numero="9" wazn=" f> 
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<wazn numero="10" wazn="jl4-Ji^" /> 
<wazn numero=" 11" wazn=" Li-LiiL — , !> 

<wazn numero="12" wazn=" uii-'iiii" /> 

k-**" X k-* 

<wazn numero="13" wazn="j<^-ji»i" /> 
<wazn numero="14" wazn="j-l-^ " /> 
<wazn numero="15" wazn=" <”?> 

— * k_* 

<wazn numero="16" wazn="jul-jdi" /> 
<wazn numero=" 17" wazn="jPpl'-Vp''' /> 
<wazn numero="18" wazn=" Jpi-Jpi' " /> 
<wazn numero="19" wazn="jip'-jii'' /> 
<wazn numero="20" wazn="ji^'- l> 
<wazn numero- ’21" wazn="ji2p-'u£i' H /> 
<wazn numero="22" wazn="ji4 - jti" /> 
</awzans> 


Annexe 1 : fichier des schemes d'un verbe arabe 


<?xml version="1.0" encoding="windows-1256" 1> 
<transitivites> 

<transitivite numero="l" transitivite=" f ^" l> 

<transitivite numero="2" transitivite="^" l> 

<transitivite numero="3" transitivite="^ l> 
</transitivites> 

Annexe2 : fichier de transitivity d'un verbe arabe 


<?xml version-' 1.0" encoding="windows-1256" 7> 
<classes> 

<classenumero="l" classe="; L-" /> 

<classe numero="2" classe="<^i /> 

<classe numero="3" classe=".vJ /> 

<classe numero="4" classe=" f P' l> 

<classe numero="5" classe=" f ^i <uji jr -f” /> 
<classe numero="6" classe="u^" /> 

<classe numero="7" classe=" ( uji "/> 

<classe numero="8" classe="^,i, j-i-" !> 

<classe numero="9" classe="^' J^" l> 

<classe numero="10" classe=" f ^i <s j 1 j Ju>" /> 

<classe numero="ll'' classe="j^- ^ $ } ju/ 1 /> 
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<classe numero="12" classe="^i fa 
<classe numero="13" classe=' " fa 

<classe numero="14" classe="-i^ ju jit." fa 
<classe nu me ro="15” classe="^ } \ } fa 

<classe numero="16" classe=". - " fa 

<classe numero="17" classed 1 --/- ■”/> 

<classe numero="18" classe="^g <jp" fa 
<classe numero="19 1 ' classe=" £ uii jl _ v -J" fa 

<classe numero="20" classe-V'W fa 

<classe numero="21" classe-'^i- fa 

cclasse numero="22" classe= 
cclasse numero="23" classe= JyJ' jy- fa 
cclasse numero="24" classe="^- fa 

cclasse numero="25" classe="<^' Jr +- fa 

cclasse numero="26" classe=">-^i ” fa 

cclasse numero="27" classe="j aJ" fa 
cclasse numero="28" classe="^' jy-r* fa 

cclasse numero="29" classe="j-> fa 

cclasse numero="30" classe=' 
c/cl asses > 

Annexe3 : fichier des classe (1*1111 verbe arabe 
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^ jJl J>- ^Lill 2L ^>- ji y^jJl 0 Jjti\ C-oJ^Lj 

1. . j l-j yiiLj 2002 ^jluj 2jl> 4 y tJ> 




j ^Jujl-Vi 2UyUi ijl ^ii ft Ljj 2LijjL.Vi aiU \ JVi 

^ £-lol JJ JjcJ Ajt jiP .^LluLj' 

isLvjVl Jj <y a_v-»U^ y* !wby> Jjj yt-Jj cU J 

<2^>- 4 ;LU^i iJu& ^ iJjfc ^ 3 l,Jl111 JU-pSH jJlijj .^yjLJl 

^g ip l_y_j» . Ap yjL« yuy^l (J y~ : y^j j 2_*JJ 2_d v \ (JOsf ^ Ly*_^>_>^ 

t_ JEjya li t “j I o A .la j £-LJtji * j-..,^ j- 1 *y Jlili 

iJVjJi ^ (J y>^\ h ^ J1 iJ^UJVl oWij aUri *tij e; 

* {J * i J J-^ <-* j*^ 


Le processus de standardisation et de generalisation de 1‘ utilisation 
du caractere tifinaghe au Maroc, promu depuis 2002 par 1 I RCA M, a 
considerabl ement eontribue au developpement du traitement automatique 
de la langue amazighe et a la creation des ressources linguistiques 
electroniques en caracteres tifinaghes. II reste neanmoins d autres efforts 
a consentir, notamment par la communaute scientifique, pour encourager 
la promotion de Y amazighe et contribuer a son epanouissement. Les 
travaux inclus dans cet ouvrage y contribuent dans des axes aussi 
diversifies que la dictionnairique, la morpho-syntaxe et la sem antique, 
1 annotation m orpho syntaxi que , V OCR pour Y amazighe, etc. 
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